为 什么 要 翻译 这 本 书 
司 那里 知道 有 一 本 关于 大 数据 的 书 正 在 征集 翻译 ， 在 看 过 英文 版 并 翻译 了 样 章 后 ， 


党 兴奋 ， 因 为 作为 软件 工程 师 ， 能 


==) 


年 初 的 时 候 我 们 从 机 械 工 业 出 版 社 华章 公 
我 们 几 位 志同道合 的 软件 工程 师 一 块 儿 接受 了 《Learning PySpark》 的 翻译 工作 。 我 们 都 非 


机 会 把 当前 最 热 最 新 的 技术 介绍 给 大 家 是 何其 菏 斑 。 


Python 是 数据 分 析 最 常用 的 语言 之 一 ， 而 Apache Spark 是 一 个 开源 的 强大 的 分 布 式 查询 和 处 理 引 擎 。 本 书 用 详尽 的 例子 介 
绍 了 如 何 使 用 Python 来 调用 Spark 的 新 特性 ， 如 何 处 理 结构 化 和 非 结构 化 的 数据 ， 如 何 使 用 PySpark 中 一 些 基 本 的 可 用 数据 类 
操作 图 像 、 阅 读 串 流 数 据 以 及 在 云 上 部 署 你 的 模型 。 
数据 是 每 个 人 身边 都 存在 的 ， 理 解 学 习 比 较 容 易 ， 但 是 数据 量 足 够 大 才 是 一 个 相对 准确 的 学 习 平 人 台 。 在 实践 中 ， 如 何 确 定 训 
练 集合 、 如 何 将 脏 数 据 处 理 为 清洁 数据 、 如 何 填 元 数据 等 等 ， 需 要 结合 本 书 的 知识 理论 ， 清 楚 了 解 竺 处理 的 大 数据 特性 。 每 一 种 
本 书 不 仅仅 是 一 本 工具 书 ， 也 是 一 本 能 深入 浅 出 、 结 合 简单 实例 


数据 的 特征 或 特性 都 不 一 致 ， 所 以 前 期 的 准备 和 调研 必 不 可 少 
来 介绍 PySpark 语 言 的 书 。 不 管 使 用 什么 语言 和 工具 ， 万 变 不 离 其 宗 。 和 希望 阅读 此 书 的 人 ， 除 了 看 懂 示 例 ， 还 能 够 结合 实际 经 验 
来 推 襄 ， 这 样 束 能 明日 作者 举 这 些 例子 的 民 藻 用 心 。 


希望 大 家 喜欢 这 本 书 ， 因 为 译 者 的 水 平 有 限 ， 翻 译 中 的 错漏 缺点 在 所 难免 ,希望 读者 批评 指正 。 


型 ， 如 何 生成 机 器 学 习 模 型 、 


读者 对 象 
本 书 适合 以 下 几 类 读者 阅读 : 
. 对 大 数据 的 前 沿 技术 非常 感 兴趣 的 人 。 
. 有 志 于 成 为 一 名 数据 科学 家 的 从 业 人 员 。 


- 有 一 定 算法 和 编程 基础 的 技术 爱好 者 。 


本 书 由 来 自 IBM 中 国 开发 中 心 的 软件 工程 师 联合 翻译 完成 。 其 中 : 
“来 云 杰 (目前 就 职 于 IBM 中 国 开发 中 心 ) 翻译 了 第 5 章 、 第 6 章 。 


- 陈列 ( 原 IBM 工 程 师 ， 现 就 职 于 某 大 数据 公司 ) 翻译 了 第 2 


- 刘 旭 二 (目前 就 职 于 IBM 中 国 开 发 中 心 ) 翻译 了 第 7 章 、 第 8 章 、 第 9 章 。 


另外 ， 第 1 章 由 栾 云 太 、 陈 瑶 、 刘 旭 遂 三 人 共同 翻译 ， 第 10 章 由 栾 云 杰 、 陈 瑶 两 人 共同 翻译 。 


致谢 
感谢 华 草 公司 引进 了 该 书 的 中 译本 版 权 ， 这 是 该 中 译本 得 以 面市 的 最 核心 要 素 。 
司 的 和 静 老 师 给 予 我 们 的 支持 和 信任 。 因 为 这 份 信任 ,我 们 才 有 机 会 来 翻译 这 本 关于 大 数据 和 Apache Spark 的 书 


感谢 华章 公 


感谢 本 次 翻译 组 的 小 伙伴 们 。 翻 译本 书 的 过 程 ， 是 一 种 学 习 与 思考 的 结合 ， 也 是 和 伙伴 合作 与 交流 的 经 历 。 非 常 庆 玉 过 到 了 
窒 智 又 勤奋 的 伙伴 ， 即 使 在 繁忙 的 工作 和 蔬 奏 极 快 的 生活 中 ， 也 努力 完成 了 翻译 和 审阅 计划 |。 


另外 ， 也 要 感谢 我 们 的 家 人 对 我 们 的 支持 ， 正 是 有 他 们 的 支持 和 鼓励 ， 我 们 才能 坚持 下 来 。 


序 


感谢 你 选择 这 本 书 开始 PySpark 之 旅 ， 希 望 你 像 我 一 样 兴 否 。 当 Denny Lee 第 一 次 告诉 我 这 本 新 书 的 时 候 ， 我 非常 高 兴 。 
Apache Spark 既 支持 Java、Scala、 久 VM 世界， 又 支持 Python (以 及 近来 的 R) 世界 ， 这 是 它 成 为 一 个 如 此 非 几 的 平台 最 为 重要 
的 原因 。 以 前 很 多 书籍 都 集中 于 核心 语言 ， 或 者 主要 关注 在 JVM 语 言 上 ， 所 以 很 高 兴 看 到 由 如 此 有 经 验 的 Spark 教 育 工 作者 来 专 
门 为 PySpark 出 书 ,使 PySpark 有 机 会 绽放 光芒 。PySpark 通 过 支持 这 两 个 不 同 的 世界 ， 使 我 们 能 够 成 为 更 高 效 的 数据 科学 家 和 数 
据 工 程 师 ， 同 时 得 以 借 答 彼此 社区 的 那些 绝 佳 想 法 。 


很 菏 乎 有 机 会 浏览 这 本 书 的 早期 版 本 ， 这 使 我 对 该 项 目的 兴趣 更 为 浓厚 。 我 曾 有 竹 参 加 过 一 些 类 似 的 会 议和 聚会 ， 看 着 作者 
将 Spark 世 界 的 新 概念 介绍 给 不 同 的 观众 〈 从 新 人 到 经 验 丰 富 的 老手 ) ， 并 且 他 们 提取 目 身 的 经 验 写 出 这 本 书 ， 他 们 真是 太 棒 了 。 
从 前 述 知识 到 各 个 主题 的 覆盖 ， 无 一 不 体现 了 作者 们 的 丰富 经 验 。 除 了 简单 介绍 PySpark 之 外 ， 他 们 还 伦 时 间 从 社区 中 找 来 了 日 
渐 重 要 的 包 ， 如 GraphFrames 和 TensorFrames。 


在 决定 使 用 哪些 工具 时 ， 我 觉得 社区 是 经 常 被 忽视 的 一 部 分 ，Python 拥 有 一 个 很 棒 的 社区 ， 我 期 待 着 你 加 入 Python Spark 
社区 。 所 以 ， 来 享受 你 的 冒险 之 旅 吧 ; 我 知道 你 会 和 Denny Lee 以 及 Tomek Drabas 有 很 好 的 联系 。 我 真 的 相信 ， 通 过 拥有 多 样 
化 的 Spark 用 户 社 区 ， 我 们 将 能 够 创造 出 对 每 个 人 都 有 用 的 更 好 的 工具 ， 所 以 我 希望 能 够 在 某 个 会 议 、 聚 会 或 邮件 列表 中 见 到 你 ! 


Holden Karau 


据 估 计 ，2013 年 全 世界 产生 了 大 约 4.4ZB ( 词 头 Z 代 表 1021) 信息 量 的 数据 ! 而 到 2020 年 ， 预 计 人 类 将 会 产生 10 信 于 2013 年 
的 数据 量 。 随 着 字面 上 的 数字 越 来 越 大 ， 加 上 人 们 需求 的 日 益 增 长 ， 为 了 使 这 些 数 据 更 有 意义 ，2004 年 来 自 Google 的 Jeffrey 
Dean 和 Sanjay Ghemawat 友 表 了 一 篇 开创 性 的 论文 《MapReduce: Simplified Data Processing on Large Clusters》。 至 
此 ， 利 用 这 一 概念 的 技术 开始 快速 增多 ，Apache Hadoop 也 开始 迅速 变 得 流行 起 来 ， 最 终 创建 了 一 个 Hadoop 的 生态 系统 ， 包 括 
抽 缚 层 的 Pig、Hive 和 Mahout， 都 是 利用 了 map 和 reduce 的 简单 概念 。 


然而 ， 即 使 拥有 每 天 都 分 析 过 滤 海量 数据 的 能 力 ，MapReduce 始 终 是 一 个 限制 相当 严格 的 编程 框架 。 此 外 ， 大 多 数 的 任务 还 
要 求 读 取 、 写 入 磁盘 。 认 识 到 这 些 缺点 ，2009 年 Matei Zaharia 将 Spark 作 为 他 博士 课题 的 一 部 分 开始 研究 。Spark 在 2012 年 首次 
发 布 。 虽 然 Spark 是 基于 和 MapReduce 相 同 的 概念 ， 但 其 先进 的 数据 处 理 方法 和 任务 组 织 方式 使 得 它 比 Hadhoop 要 快 100 倍 (对 


于 内 存 计算 ) 。 


在 这 本 书 中 ， 我 们 将 指导 你 使 用 Python 了 解 Apache Spark 的 最 新 性 能 ,包括 如 何 看 懂 结 构 化 和 非 结构 化 的 数据 ， 如 何 使 用 
PySpark 中 一 些 基 本 的 可 用 数据 类 型 ， 生 成 机 器 学 习 模 型 ， 图 像 操作 ， 阅 读 串 流 数据 ， 在 云 上 部 署 模 型 。 每 一 草 力 求解 决 不 同 的 
问题 ， 并 且 我 们 也 希望 看 完 这 本 书 之 后 ， 你 可 以 擎 握 足 够 的 知识 来 解决 其 他 我 们 还 没 来 得 及 在 书 中 讲解 的 问题 。 


本 书 的 主要 内 容 
第 1 章 通 过 技术 和 作业 的 组 织 等 概念 提供 了 对 spark 的 介绍 。 
第 2 章 介绍 了 RDD、 基 本 原理 、Pyspark 中 可 用 的 非 模式 化 数据 结构 。 
第 3 草 详细 介绍 了 DataFrame 数 据 结构 ， 它 可 以 弥合 Scala 和 Python 之 间 在 效率 方面 的 差距 。 
第 4 章 引 导读 者 了 解 Spark 环 境 中 的 数据 清理 和 转换 的 过 程 。 
第 5 草 介绍 了 适用 于 RDD 的 机 器 学 习 库 ， 并 回顾 了 最 有 用 的 机 器 学 习 模 型 。 
第 6 草 涵 匡 了 当前 主流 的 机 器 学 习 库 ， 并 且 提 供 了 目前 可 用 的 所 有 模型 的 概述 。 
第 7 章 引 导 你 了 解 能 轻松 利用 图 解决 问题 的 新 结构 。 
第 8 章 介 绍 了 Spark 和 张 量 流 (TensorFlow) 领域 中 深度 学 习 (Deep Learning) 的 连接 桥梁 。 
第 9 章 摘 述 Blaze 是 如 何 跟 3park 搭 配 使 用 以 更 容易 地 对 多 源 数 据 进 行 抽 象 化 的 。 
第 10 草 介绍 了 PySpark 中 可 用 的 流 工具 。 
第 11 草 一 步 步 地 指导 你 运用 命令 行 界面 完成 代码 模块 化 并 提交 人 到 Spark 执 行 。 
其 他 一 些 详细 信息 ， 我 们 提供 了 以 下 额外 的 章节: 
安装 Spark: https://www.packtpub.com/sites/default/files/downloads/InstallingSpark.pdf。 


免费 提供 Spark Cloud: https://www.packtpub.com/sites/default/files/downloads/FreeSparkCloud Offering.pdf。 


本 书 需 要 的 软 / 硬 件 支 持 


阅读 本 书 ， 需 要 准备 一 台 个 人 电脑 (Windows、Mac 或 者 Linux 任 一 系统 都 行 ) 。 运 行 Apache Spark， 需 要 Java 7+ 并 且 安 
装配 置 Python 2.6+ 版 本 或 者 3.4+ 版 本 的 环境 ; 本 书 中 使 用 的 是 Anaconda Python3.5 版 本 ， 可 以 


在 https://www.continuum.io/downloads 下 载 。 


本 书 中 我 们 随意 使 用 了 Anaconda 的 预 六 版 Python 模 块 。GraphFrames 和 和 TensorFrames 也 可 以 在 启动 Spark 实 例 时 动态 加 
载 : 载 入 时 你 的 电脑 需要 联网 。 如 果 有 的 模块 尚未 安装 到 你 的 电脑 里 ， 也 没有 关系 ， 我 们 会 指导 你 完成 安装 过 程 。 


本 书 的 读者 对 象 


想 要 学 习 大 数据 领域 友 展 最 迅速 的 技术 即 Apache spark 的 每 一 个 人 ， 都 可 以 阅读 此 书 。 我 们 长 至 希望 还 有 来 目 于 数据 科学 领 
域 更 高 级 的 从 业 人 员 ， 能 够 找到 一 些 令 人 耳目 一 新 的 例子 以 及 更 有 趣 的 主题 。 


本 书 约定 


Qen 


下 载 代码 示例 


你 可 以 从 http://www.packtpub.com 下 载 代码 文件 。 你 也 可 以 访问 华 草 图 书 官网 : http://www.hzbook.com， 通 过 注册 并 
登录 个 人 账号 ， 下 载 本 书 的 源 代码 。 


下 载 本 书 彩 图 


我 们 还 提供 了 一 个 PDF 文 件 ， 其 中 包含 本 书 中 使 用 的 截图 和 彩 图 ， 可 以 帮助 读者 更 好 地 了 解 输出 的 变化 。 您 可 以 从 此 下 载 文 
件 https://www.packtpub.com/sites/default/files/downloads/LearningPySpark Colorlmages.pdf, 


天 于 作者 


托 马 兹 : 章 巴 斯 (Tomasz Drabas) 工作 于 微软 ， 是 一 名 数据 科学 家 ， 现 居住 企 西雅图 地 区 。 他 拥有 超过 13 年 的 数据 分 析 和 数 
据 科 学 经 验 : 在 欧洲 、 澳 大 利 亚 和 北美 洲 三 大 洲 期 间 ， 工 作 领 域 志 及 先进 技术 、 航 空 、 电 信 、 金 融和 咨询。 在 澳大利亚 期 间 ， 托 
马 妇 一直 致力 于 运筹 学 博士 学 位 ， 重 点 是 航空 业 中 的 选择 建 模 和 收入 管理 应 用 。 


在 微软 ， 托 马 兹 每 天 都 和 大 数据 打交道 ， 解 决 机 器 学 习 问 题 ， 如 异常 检测 、 流 失 预 测 和 使 用 Spark 的 模式 识别 |。 
托 马 兹 还 撰写 了 《Practical Data Analysis Cookbook》， 该 书 由 Packt Publishing 于 2016 年 出 版 。 


我 要 感谢 我 的 家 人 Rachel、Skye 和 Albert， 你 们 是 我 生命 中 的 丽 爱 ， 我 很 珍惜 与 你 们 度 过 的 每 一 天 ! 谢谢 你 们 永远 站 在 我 身 
边 ， 鼓 励 我 一 步 步 接近 我 的 职业 目标 。 另 外 ， 感 谢 所 有 的 亲人 们 。 


多 年 来 ， 还 有 很 多 人 影响 了 我 ， 我 得 再 写 一 本 书 来 感谢 他 们 。 你 们 知道 ， 我 从 心底 谢谢 你 们 ! 
不 过 ， 如 果 不 是 Czesia Wietuszewska， 我 不 会 得 到 博士 学 位 。 还 有 Ktrzys Krzysztoszek， 你 一 直 相 信 我 ! 谢谢 | 


HEE (Denny Lee) 是 微软 Azure DocumentDB 团 队 的 首 局 项 目 经 理 ， 该 团队 致力 于 为 微软 友 展 高 效 性 、 重 量 级 的 托管 文 
档 存 储 服务 。 他 是 一 名 喜欢 实践 的 分 布 式 系统 和 数据 科学 工程 师 ， 拥 有 超过 18 年 的 互联 网 级 别 基础 架构 、 数 据 平 台 和 预测 分 析 系 
统 的 开发 经 验 ， 这 些 经 验 可 用 于 内 部 部 署 和 云 环境 。 


他 在 组 建新 团队 以 及 促进 转型 、 改 革 方 面 拥有 丰富 的 经 验 。 在 加 入 Azure DocumentDB 团 队 之 前 ， 丹 尼 曾 担任 Databricks 的 
技术 传播 专员 ， 他 从 Apache Spark 0.5 时 就 一 直 在 使 用 Apache Spark。 他 还 是 Concur 数 据 科 学 工程 的 高 级 总 监 ， 曾 就 职 于 构建 
了 微软 Windows 和 Azure 服 务 〈 目 前 称 为 HDlnsight) 的 Hadoop 的 旷 化 团队 。 丹 尼 还 拥有 俄 勒 办 州 健康 和 科学 大 学 的 生物 医学 信 
息 硕 士 学位， 并 在 过 去 15 年 中 为 企业 医疗 保健 客户 构建 和 实施 了 强大 的 数据 解决 方案 。 


我 要 感谢 我 的 好 和 麦子 Hua-Ping， 还 有 我 出 色 的 女儿 Isabella 和 Samantha。 是 你 们 让 我 保持 清醒 ， 帮 我 实现 了 梦 灾 以 求 的 愿望 ! 


第 1 草 ”了解 Spark 


Apache Spark 是 一 个 强大 的 开源 处 理 引 擎 ， 最 初 由 Matei Zaharia 开 发 ， 是 他 在 加 州 大 学 伯克利 分 校 的 博士 论文 的 一 部 分 。 
Spark 的 第 一 个 版 本 于 2012 年 发 布 。 从 那 时 起 ，Zaharia 于 2013 年 与 人 合作 创立 了 Databricks 并 担任 CTO， 他 还 在 斯 坦 福 大 学 担 
任教 授 职 务 (之 前 在 麻 省 理工 学 院 ) 。 同 时 ，Spark 代 码 库 被 捐赠 给 Apache Software Foundation， 并 已 成 为 其 旗舰 项 目 。 


Apache Spark 是 快速 、 易 于 使 用 的 框架 ， 人 允许 你 解决 各 种 复杂 的 数据 问题 ， 无 论 是 半 结 构 化 、 结 构 化 、 流 式 ， 或 机 器 学 习 、 
数据 科学 。 它 也 已 经 成 为 大 数据 方面 最 大 的 开源 社区 之 一 ， 拥 有 来 自 250 多 个 组 织 的 超过 1000 个 贡献 者 ， 以 及 亿 布 全 球 570 多 个 地 
方 的 超过 30 万 个 Spark Meetup 社 区 成 员 。 


在 本 章 中 ， 我 们 将 提供 一 个 了 解 Apache Spark 的 切入 点 。 我 们 将 解释 Spark Job 和 API 背 后 的 概念 ， 介 绍 Spark 2.0 架 构 ， 并 
探索 Spark 2.0 的 特性 。 


1.1 什么 是 Apache Spark 


Apache Spark 是 一 个 开源 的 、 强 大 的 分 布 式 查询 和 处 理 引 擎 。 它 提供 MapReduce 的 灵活 性 和 可 扩展 性 ， 但 速度 明显 更 高 : 
当 数 据 存 储 在 内 存 中 时 ， 它 比 Apache Hadoop 快 100 倍 ， 访 问 磁盘 时 高 达 10 倍 。 


Apache Spark 人 允许 用 户 读 取 、 转 换 、 聚 合 数据 ， 还 可 以 轻松 地 训练 和 部 署 复 杂 的 统计 模型 。Java、Scala、Python、R 和 
SQL 都 可 以 访问 3park API, Apache Spark 可 用 于 构建 应 用 程序 ， 或 将 其 打包 成 为 要 部 署 在 集群 上 的 库 ， 或 通过 笔记 本 
(notebook) (例如 Jupyter、Spark-Notebook、Databricks notebooks 和 Apache Zeppelin) 交互 式 执 行 快速 的 分 析 。 


Apache Spark 提 供 的 很 多 库 会 让 那些 使 用 过 Python 的 pandas 或 R 语 言 的 data.frame 或 者 data.tables 的 数据 分 析 师 、 数 据 科 
学 家 或 研究 人 员 觉 得 熟悉 。 非 常 重要 的 一 点 是 ， 昌 然 Spark DataFrame 会 让 pandas 或 data.frame、data.tables 用 户 感到 熟悉 ， 
但 是 仍 有 一 些 差 异 ， 所 以 不 要 期 望 过 高 。 具 有 更 多 SQL 使 用 背景 的 用 户 也 可 以 用 该 语言 来 塑造 其 数据 。 此 外 ，Apache Spark 还 提 
供 了 几 个 已 经 实现 并 调 优 过 的 算法 、 统 计 模型 和 框架 : 为 机 器 学 习 提 供 的 MLlib 和 ML， 为 图 形 处 理 提供 的 GraphX 和 
GraphFrames, 以 及 Spark Streaming (DStream 和 Structured) 。Spark 人 允许 用 户 在 同一 个 应 用 程序 中 随意 地 组 合 使 用 这 些 
库 。 


Apache Spark 可 以 方便 地 在 本 地 笔记 本 电脑 上 运行 ， 而 且 还 可 以 轻松 地 在 独立 模式 下 通过 YARN 或 Apache Mesos 于 本 地 集 
群 或 云 中 进行 部 署 。 它 可 以 从 不 同 的 数据 源 读 取 和 写 入 ， 包 括 (但 不 限于 ) HDFS. Apache Cassandra, Apache HBase 和 93 : 


Spark SQL+ $i | MLlid Graphx 
reaming up NM 
DataFrame SEE 图 形 计算 
Spark 核心 API 
R SQL Python Scala Java 


资料 来 源 : Apache Spark is the smartphone of Big Data (http://bit.ly/1QsgaNj) 


1.2 Spark 作业 和 AP 


在 本 节 中 ， 我 们 将 简要 介绍 Apache Spark 作 业 (job) 和 API。 这 为 Spark 2.0 架 构 的 后 续 部 分 提供 了 必要 的 基础 。 


1.2543. 执行 过 程 


任何 Spark 应 用 程序 都 会 分 离 主 节 后 上 的 单个 驱动 进程 (可 以 包含 多 个 作业 ) ， 然 后 将 执行 进程 (包含 多 个 任务 ) 分 配给 多 个 
工作 节点 ， 如 下 图 所 示 : 


TIERA 


KAE RENEA EREA, KEER HEER EN FERETE AA. Ea, HSE 
AABT ATRAZ NAE ELMER. 


Spark 作 业 与 一 系列 对 象 依赖 相关 联 ， 这 些 依赖 关系 是 以 有 向 无 环 图 (DAG) 的 方式 组 织 的 ， 例 如 从 Spark UI 生成 的 以 下 示 
例 。 基 于 这 些 ，Spark 可 以 优化 调度 〈 例 如 确定 所 需 的 任务 和 工作 节点 的 数量 ) 并 执行 这 些 任务 。 


步骤 21 步骤 22 Z^ 23 


parallelize partitionBy partitionBy 
parallelize mapRartitions maphRartitions 
union 


VN N 有 关 DAG 调 REX 的 更 多 ZES 息 、 à 请 参考 htt :/ /bit.l /29W'TiK8 o 
p y 


1.2.3 DataFrame 


DataFrame 像 RDD 一 样 ， 是 分 布 在 集群 的 节点 中 的 不 可 变 的 数据 集合 。 然 而 ， 与 RDD 不 同 的 是 ， 在 DataFrame 中 ， 数 据 是 
以 命名 列 的 方式 组 织 的 。 


PA ^N 
Q&A 


一 如 果 你 熟 悉 Python 的 pandas 或 者 RR 的 data.frames， 这 是 一 个 类 似 的 概念 。 


DataFrame 旨 在 使 大 型 数据 集 的 处 理 更 加 容易 。 它 们 人 允许 开发 人 员 对 数据 结构 进行 形式 化 ， 人 允许 更 高 级 的 抽象 。 在 这 个 意义 
上 来 说 ，DataFrame 与 关系 数据 库 中 的 表 类 似 。DataFrame 提 供 了 一 个 特定 领域 的 语言 AP 来 操作 分 布 式 数据 ， 使 Spark 可 以 被 
更 广泛 的 受众 使 用 ， 而 不 只 是 专门 的 数据 工程 师 。 


DataFrame 的 一 个 主要 优点 是 ，spark5 引 擎 一 开始 惑 构建 了 一 个 逻辑 执行 计划 ， 而 且 执 行 生成 的 代码 是 基于 成 本 优化 程序 确 
定 的 物理 计划 。 与 Java 或 者 Scala 相 比 ，Python 中 的 RDD 是 非常 慢 的 ， 而 DataFrame 的 引入 则 使 性 能 在 各 种 语言 中 都 保持 稳定 。 


1.2.4 Dataset 


Spark 1.6 中 引入 的 Spark Dataset 冒 在 提供 一 个 APl， 人 允许 用 户 轻 松 地 表达 域 对 象 的 转换 ， 同 时 还 提供 了 具有 强大 性 能 和 优点 
的 Spark SQL 执 行 引擎 。 遗 憾 的 是 ， 在 写 这 本 书 时 ，Dataset 仅 在 Scala 或 Java 中 可 用 。 当 它们 在 PySpark 中 可 用 时 ,我 们 再 在 以 
后 的 版 本 中 讨论 。 


1.2.5 Catalyst 优化 器 


Spark SQL 是 Apache Spark 最 具 技 术 性 的 组 件 之 一 ， 因 为 它 支 持 SQL 查 询 和 DataFrame API, Spark SQL 的 核心 是 Catalyst 
优化 器 。 优 化 器 基于 函数 式 编 程 结构 ， 并 且 则 在 实现 两 个 目的 : 简化 向 Spark SQL 添加 新 的 优化 技术 和 特性 的 条 件 ， 并 人 允许 外 部 
开发 人 员 扩 展 优 化 器 (例如 ， 添 加 数据 源 特定 规则 ， 支 持 新 的 数据 类 型 等 等 ) : 


EE — p 
计划 A 


代码 生成 


v: NEM 
-$-9 


T 
未 解决 的 优化 的 


逻辑 计划 ZERRI ”逻辑 计划 


计划 Z 


上 -一 一 一 一 一 一 一 : 
分 析 逻辑 优化 成 本 优化 器 
物理 计划 


A 详细 信息 ， 请 查看 Deep Dive into Spark SQL’ s Catalyst Optimizer (http://bit.ly/27117Dk) 和 Apache Spark DataFrames : 


Simple and Fast Analysis of Structured Data (http://bit.ly/29QbcOV) 。 


1.26 $522YHxl] 
Tungsten (1522) 是 Apache Spark 执 行 引擎 项 目的 代号 。 访 项 目的 重点 是 改进 Spark 算 法 ， 使 它们 更 有 效 地 使 用 内 存 和 
CPU， 使 现代 硬件 的 性 能 友 挥 到 极致 。 
该 项 目的 工作 重点 包括 : 
` 显 式 管理 内 存 ， 以 消除 JVM 对 象 模型 和 垃圾 回收 的 开销 。 
. 设计 利用 内 存 层次 结构 的 算法 和 数据 结构 。 


- 在 运行 时 生成 代码 ， 以 便 应 用 程序 可 以 利用 现代 编译 器 并 优化 CPU。 


` 消除 虚拟 函数 调度 ， 以 减少 多 个 CPU 调 用 。 


: 利用 初级 编程 (例如 ， 将 即时 数据 加 载 到 CPU 寄 存 器 ) ， 以 加 速 内 存 访 问 并 优化 Spark 的 引擎 ， 以 有 效 地 编译 和 执行 简单 循 


环 。 


> 更 多 详细 信息 ， 请 参考 Project Tungsten: Bringing Apache Spatk Closer to Bare 

Metal (https://databricks.com/blog/2015/04/28/project-tungstenbringing-spark-closer-to-bare-metal.html) ; Deep Dive into Project 
Tungsten: Bringing Spark Closer to Bare Metal|SSE 2015 Video and Slides] (https:/ /spatk-summit.org/2015/events/deep-dive-into-project- 
tungsten-bringing-spark-closerto-bare-metal/ ) ; Apache Spark as a Compiler: Joining a Billion Rows per Second on a 


Laptop (https:/ /databricks.com/blog/201 6/05/23 /apache-spatkas-a-compiler-joining-a-billion-rows-pet-second-on-alaptop.html) o 


1.3 Spark 2.0 的 架构 


Apache Spark 2.0 的 引入 是 Apache Spark 项 目 基于 过 去 两 年 平台 开 上 友 经 验 近期 所 帮 布 的 主要 版 本 更 新 : 


© 


Tungsten Phase 2, ZERE SQL 2003 以 及 统一 
速度 提升 SS 一 20 倍 Dataset 和 DataFrame 


资料 来 源 : Apache Spark 2.0: Faster, Easier and Smarter (http://bit.ly/2ap7qd5) 


Apache Spark 2.0 发 布 的 三 个 重要 主题 包括 性 能 增强 (通过 Tungsten Phase 2) 、 引 入 结构 化 流 以 及 统一 Dataset 和 
DataFrame。 里 然 Dataset 目 前 仅 在 9cala 和 Java 中 可 用 ， 但 我 们 仍然 将 其 摘 述 为 Spark 2.0 的 一 部 分 。 


Vd 


EJ XApache Spark 2.0 的 更 多 信息 ， 请 参阅 由 Spatk 的 核心 提交 者 提供 的 以 下 介绍 : Reynold Xin 的 Apache Spark 2.0: 
Faster, Easier, and Smarter (http://bit.ly/2ap7qd5) ; Michael Armbrust 的 Structuring Spark: DataFrames, Datasets, and 
Streaming (http://bit.ly/2ap7qd5) ; Tathagata Das 的 A Deep Dive into Spark Streaming (http://bit.ly/2aHt1w0) ; Joseph Bradley ú% 


Apache Spark MLIib2.0 Preview: Data Science and Production (http://bit.ly/2aHrO VN) 。 


1.3.1 统一 Dataset 和 DataFrame 


在 上 一 节 中 ， 我 们 所 出 Dataset 仅 在 3cala 或 Java 中 可 用 。 但 是 ， 我 们 提供 了 以 下 背景 文字 来 让 你 更 好 地 了 解 Spark 2.0 的 针对 
性 。 


Dataset 于 2015 年 作为 Apache Spark 1.6 版 本 的 一 部 分 推出 。Dataset 的 目标 是 提供 一 个 类 型 安全 的 编程 接口 。 这 人 允许 开发 
人 员 使 用 编译 时 类 型 安全 (生产 应 用 程序 可 以 在 运行 之 前 检查 错误 ) 处 理 半 结构 化 数据 (如 JSON 或 键 值 对 ) 。Python 不 实现 
Dataset API 的 部 分 原因 是 Python 不 是 一 种 类 型 安全 的 语言 。 


同样 重要 的 是 ，Dataset APl 包 含 高 级 别 域 的 特定 语言 操作 ， 如 sum () 、avg () 、join () 和 group () 。 这 种 最 新 的 特 


性 意味 着 不 仅 具 有 传统 Spark RDD 的 灵活 性 ， 而 且 代码 也 更 容易 表达 、 读 取 和 写 入 。 与 DataFrame 类 似 ，Dataset 可 以 通过 将 表 
达 式 和 数据 字段 暴露 给 查询 计划 器 并 借助 Tungsten 的 快速 内 存 编码 来 运用 Spark 的 Catalyst 优 化 器 。 


Spark API 的 历史 演变 如 下 图 所 示 ， 注 意 从 RDD 到 DataFrame 到 Dataset 的 过 程 : 


Spark API 的 历史 


DataFrame 
(2013) 
分 配 JVM 对 象 分 配 行 对 象 的 集合 内 部 的 行 ， 外 部 的 
的 集合 JVM 对 象 
基于 表达 式 的 un - 
功能 运算 符 操作 和 UDF 几乎 是 “两 个 世界 的 最 好 的 ”: 


类 型 安全 + Wd 


但 是 比 DF 要 慢 ， 不 适合 做 
交互 式 分 析 ， 特 别 是 Python 


(有 映射， 过滤 等 ) 逻辑 计划 和 优化 器 


快速 / 高效 的 内 部 表示 
s$databricks 


资料 来 源 : Webinar Apache Spark1.5: What is the difference between a DataFrame and a RDD? — (http://bit.ly/29]PJSA) 


DataFrame 和 Dataset API 的 统一 使 创建 身后 兼容 的 重大 改变 成 为 可 能 。 这 是 Apache Spark 2.0 成 为 主要 版 本 (相对 1.x 这 种 
重大 改变 很 少 的 次 要 版 本 而 言 ) 的 主要 原因 之 一 。 从 下 图 中 可 以 看 出 ，DataFrame 和 Dataset 都 属于 新 的 Dataset API, (E73 
Apache Spark 2.0 的 一 部 分 被 引入 进来 : 


先 一 Apache Spark 2.0 API 


未 类 型 化 的 API 


* DataFrame = Dataset[Row] 


- 别名 


DataFrame 


Dataset 
(2016) 


。 Dataset [T] 


Sdatabricks 


资料 来 源 : A Tale of Three Apache Spark APIs: RDDs, DataFrames, and Datasets (http: / /bit.ly/2accSNA ) 


如 前 所 述 ，Dataset API 提 供 了 一 种 类 型 安全 的 面向 对 象 的 编程 接口 。 通 过 将 表达 式 和 数据 字段 暴露 给 查询 计划 器 和 Project 
Tungsten 的 快速 内 存 编码 ，Dataset 可 以 利用 Catalyst 优 化 器 。 但 是 现在 DataFrame 和 Dataset 已 统一 为 Apache Spark 2.0 的 一 
部 分 ，DataFrame 现 在 是 未 类 型 化 的 Dataset API 的 一 个 别名 。 进 一 步 来 说 : 


DataFrame = Dataset [Row] 


1.3. ”SparkSession 介 绍 

在 过 去 ， 你 可 能 会 使 用 SparkConf、SparkContext、SQLContext 和 HiveContext 来 分 别 执行 配置 、Spark 环 境 、SQL 环 境 和 
Hive 环 境 的 各 种 Spark 查 询 。 SparkSession 本 质 上 是 这 些 环境 的 组 合 ， 包 括 StreamingContext。 

例如 ， 过 去 我 们 这 么 写 : 


df = sqlContext.read \ 
.format('json').load('py/test/sql/people.json') 


现在 可 以 这 样 写 : 


df = spark.read.format('json').load('py/test/sql/people.json') 


或 者 这 样 写 : 


df = spark.read.json('py/test/sql/people.json') 


SparksSession 现 在 是 读 取 数 据 、 处 理 元 数据 、 配 置 会 话 和 管理 集群 资源 的 入 口 。 


1.3.3 Tungsten Phase 2 


当 项 目 开 始 时 ， 对 计算 机 硬件 环境 的 基本 观察 是 ， 尽 管内 存 、 磁 盘 和 网 络 接口 (在 一 定 程度 上 ) 的 性 价 比 有 所 改善 ， 但 CPU 
的 性 价 比 并 非 如 此 。 虽 然 硬件 制造 商 可 以 在 每 个 插 模 中 放置 更 多 的 核心 ( 即 通过 并 行 化 提高 性 能 ) ， 但 是 实际 核心 速度 没有 显著 
的 改进 。 

Project Tungsten 于 2015 年 推出 ， 旨 人 在 为 Spark 引 擎 的 性 能 提高 做 出 显著 改进 。 这 些 改进 的 第 一 阶段 侧重 于 以 下 几 个 方面 : 

内 仔 管 理 和 二 进 制 处 理 : 利用 应 用 程序 语义 来 显 式 管理 内 存 ， 并 消除 JVM 对 象 模型 和 垃圾 回收 的 开销 。 

局 速 缓存 感 和 计算: 利用 存储 器 层次 结构 的 算法 和 数据 结构 。 

代码 生成 : 使 用 代码 生成 来 利用 现代 编译 器 和 CPU。 


下 图 是 更 新 的 Catalyst 引 擎 ， 用 于 表示 Dataset 所 包含 的 内 容 。 如 图 右 侧 所 示 (成 本 模型 右 侧 ) ， 代 码 生成 的 使 用 基于 选 定 的 
物理 计划 生成 基础 RDD: 


R 


W (ia. 
LV 


SQLAST 分 析 。 ”人 逻辑 优化 物理 计划 代码 生成 
TUB £077 优化 后 的 MR 选中 的 本 oo 


Frame ET UE ESL 天 远 辑 计划 时 物理 计划 JTT C 


Dataset 


Dataset, DataFrame 和 SQL 共享 相同 的 优化 / HTE E 


资料 来 源 : Structuring Spark: DataFrames, Datasets and Streaming (http:/ /bit.]y/2c]508x) 


推进 全 阶段 代码 生成 是 Tungsten Phase 28]— AB. Ehen, Sparks|SEBUCERECESRTEERJ 7J8& 7 SparkB TER AE Pre 15 


码 ， 而 不 是 仅 为 特定 的 作业 或 任务 生成 字 节 码 。 围 绕 这 尝 改 进 的 主要 方面 包括 : 


~ 


S ARMRASVIE: 减少 了 多 次 CPU 调用 ， 这 在 调度 数 十 亿 次 运算 时 可 能 对 性 能 产生 深远 的 影响 。 


仔 储 器 中 的 中 间 数 据 对 比 CPU 寄 存 器 中 的 中 间 数 据 : Tungsten Phase 2 将 中 间 数 据 放 入 CPU 寄存 器 。 从 CPU 寄存 器 而 不 是 从 
存储 器 获得 数据 使 读 取 数据 的 周期 数 得 到 了 数量 级 的 提升 。 


循环 展开 和 SIMD: 优化 Apache spark 的 执行 引擎 ， 以 利用 现代 编译 器 和 CPU 有 效 地 编译 和 执行 简单 for 循 环 (而 不 是 复杂 的 
RAAHE) 。 


更 多 有 天 Project Tungsten 的 深入 评论 请 参阅 : 
: Apache Spark Key Terms, Explained (https://databricks.com/blog/2016/06/22/apache-spark-key-terms-explained.html) o 


: Apache Spark as a Compiler: Joining a Billion Rows per Second on a Laptop  (https:/ /databricks.com/blog/2016/05/23 /apache-spark- 


as-a-compiler-joining-a-billion-tows-per-second-on-a-laptop.html) o 


: Project Tungsten: Bringing Apache Spark Closer to Bare Metal (https:/ /databricks.com/blog/2015/04/28 /project-tungsten-bringing- 


spatk-closet-to-bate-metal.html) o 


1.3.4 ”结构 化 流 


引用 Reynold Xin 在 Spark Summit East2016 中 说 过 的 : “执行 流 分 析 的 最 简单 的 方法 是 不 必 考 虑 流 ” 


这 是 构建 结构 化 流 的 基础 。 虽 然 流 媒体 功能 强大 ， 但 关键 问题 之 一 是 流 可 能 难以 构建 和 维护 。Uber、Netflix 和 Pinterest 等 公 
司 都 有 在 生产 中 运行 的 Spark Streaming 应 用 程序 ， 他 们 也 有 专门 的 团队 来 确保 系统 高 度 可 用 。 


SE de 果 需 要 更 高 级 的 Spatk Streaming 的 内 容 ， 请 参考 Spark Streaming: What Is It and Who s Using It? 


(http://bit.ly/1Qb10f6) 。 


如 前 文 所 述 ， 当 操作 Spark Streaming (以 及 用 于 此 的 任何 流 系 统 ) 时 ， 有 许多 方面 可 能 出 错 ， 包 括 (但 不 限于 ) 后 期 事 


件 ， 到 最 终 数据 源 的 部 分 输出 ， 失 败 时 的 状态 恢复 和 分 布 式 读 / 写 : 


Spark 1.3 Spark 2.0 
Bf DataFrame Jeb DataFrame 


èdatabricks 
资料 来 源 : A Deep Dive into Structured Streaming (http://bit.ly/2aHt1w0) 


因此 ， 为 了 简化 Spark Streaming， 现 在 有 一 个 单一 API 可 以 解决 Apache Spark 2.0 版 本 中 的 批 处 理 和 流 式 处 理 。 更 简洁 地 
说 ， 高 级 流 APlI 现 在 构建 在 Apache Spark SQL 引擎 忆 上。 它 运 行 的 查询 与 使 用 Dataset、DataFrame 时 完全 相同 ， 为 你 提供 所 有 
性 能 和 优化 以 及 事件 时 间 、 窗 口 、 会 话 (session) 、 源 (source) A (sink) 等 方面 的 优势 。 


1.3.5 ”连续 应 用 


总 而 言 之 ，Apache Spark 2.0 不 仅 统一 了 DataFrame 和 Dataset， 而 且 统 一 了 流 、 交 互 式 和 批 处 理 查询 。 产 生 了 一 整套 新 的 
用 例 ， 包 括 将 数据 聚合 到 流 中 并 使 用 传统 的 JDBC/ODBC 提 供 它 ， 在 运行 时 更 改 查 询 ， 或 在 多 种 场景 中 构建 和 应 用 ML 模型 的 延迟 
用 例 : 


样 例 上 传统 的 流 
m 其 他 处 理 类 型 
Bl Ad-hoc 查询 


Kafka | 


目标 ， 端 到 端的 连续 应 用 


iiatabricks 


资料 来 源 : Apache Spark Key Terms, Explained (https://databricks.com/blog/2016/06/22/apache-spatk-key-terms-explained.html) 
同时 ， 你 现在 可 以 构建 新 到 辛 的 连续 应 用 程序 ， 在 其 中 你 可 以 对 实时 数据 进行 批 处 理 ， 执 行 ETL、 生 成 报告 、 更 新 或 跟踪 流 中 
的 特定 数据 。 


(3 . —-— | E . 
Sa 关连 续 应 用 程序 的 更 多 信息 ， 请 参阅 Matei Zahatia 的 博客 文章 Continuous Applications: Evolving Streaming in Apache 


Spark2.0-A foundation for end-to-end real-time applications (http://bit.ly/2aJaSOr) o 


1.4 人 小结 


在 本 章 中 ， 我 们 回顾 了 什么 是 Apache Spark， 并 提供 了 Spark 人 作业 和 API 的 基础 。 我 们 还 提供 了 一 个 关于 弹性 分 布 式 数据 集 
(RDD) 、DataFrame 和 Dataset 的 入 门 ， 我 们 将 在 后 续 草 节 中 进一步 讨论 RDD 和 DataFrame。 我 们 还 讨论 了 在 Apache Spark 
中 由 于 Spark SQL 引擎 的 Catalyst 优 化 器 和 Project Tungsten，DataFrame 如 何 提供 更 快 的 查询 性 能 。 最 后 ， 我 们 还 提供 了 Spark 
2.0 架 构 的 高 级 概述 ， 包 括 Tungsten Phase 2、 结 构 化 流 和 统一 DataFrame 和 和 Dataset。 


在 下 一 章 中 ， 我 们 将 介绍 Spark 中 的 一 个 基本 数据 结构 : 弹性 分 布 式 数 据 集 或 者 称 为 RDD。 我 们 将 向 你 展示 如 何 使 用 变换 器 
和 动作 来 创建 和 修改 这 些 没有 模式 的 数据 结构 ， 以 便 你 可 以 开始 使 用 PySpark。 


外 的 章节 ， 其 中 概述 了 如 


xf 
各 
mu 


然而 ， 在 我 们 开始 这 样 做 之 前 ， 请 先 看 一 下 链接 http://www.tomdrabas.com/site/book, i 
何在 你 的 本 地 机 器 上 安装 Spark 的 说 明 (除非 你 已 经 安装 了 Spark) 。 以 下 是 该 手册 的 直接 链接 : 


https://www.packtpub.com/sites/default/files/downloads/InstallingSpark.pdf 


第 2 章 ” 弹 性 分 布 式 数 据 集 


弹性 分 布 式 数据 集 (RDD) 不 仅 是 一 组 不 可 变 的 JVM (Java 虚拟 机 ) 对 象 的 分 布 集 ， 可 以 让 你 执行 高 速 运算 ， 而 且 是 
Apache Spark 的 核心 。 


顾名思义 ， 设 数据 集 是 分 布 式 的。 基于 某 种 关键 子 ， 访 数据 集 被 划分 成 块 ， 同 时 分 友 到 执行 器 节点 。 这 样 做 可 以 使 得 此 类 类 
据 集 能 够 高 速 执行 运算 。 另 外 ， 正 如 在 第 1 章 中 所 提 到 过 的 ，RDD 将 跟踪 ( 记 入 日 志 ) 应 用 于 每 个 块 的 所 有 转换 ， 以 加 快 计算 速 
度 ， 并 在 发 生 错误 和 部 分 数据 丢失 时 提供 回 退 。 在 这 种 情况 下 ，RDD 可 以 重新 计算 数据 。 该 数据 志 是 另外 一 种 抵御 数据 丢失 的 防 
线 并 且 有 助 于 数据 复制 |。 


2.1 RDD 的 内 部 运行 方式 


RDD 并 行 操 作 。Spark 工 作 原 理 的 最 大 优势 是 : 每 个 转换 并 行 执行 ， 从 而 大 大 提高 速度 。 


数据 集 转换 通常 是 惰性 的 。 这 束 意 味 着 任何 转换 仪 在 调用 数据 集 上 的 操作 时 才 执 行 。 这 有 助 于 Spark 优 化 执行 。 例 如 ， 分 析 师 
们 通 弟 会 按 以 下 常见 步骤 来 熟悉 一 个 数据 集 : 


1. 统 计 出 某 一 列 中 不 同 值 出 现 的 次 数 。 
2. 选 出 以 字母 A 开头 的 。 
3. 将 结果 打印 在 屏幕 上 。 


听 起 来 和 之 前 提 到 的 步骤 一 样 简 单 ， 如 果 仅 仅 是 以 字母 A 开 始 的 项 受到 关注 ， 融 没有 必要 对 其 他 项 的 不 同 值 进行 统计 了 。 
此 ,不 再 按照 前 面 的 要 后 来 执行 ，Spark 可 以 仅 仅 统计 以 A 开头 的 项 ， 并 将 结果 打印 在 屏幕 上 。 


我 们 用 一 段 代 码 作 为 例子 来 解释 这 三 个 步骤 。 首 先 ， 使 用 Spark 的 方法 .map (lambda v: (v, 1) ) 来 映射 A 的 值 ， 然 后 选 
择 那 些 以 “A” 开 头 的 记录 (使 用 方法 .filter (lambda val: val.startswith ('A') ) ) 。 如 果 我 们 调用 方 
法 .reduceByKey (operator.add) ， 就 会 减少 数据 集 并 增加 每 一 个 关键 字 的 次 数 。 所 有 的 这 些 步骤 都 在 改变 数据 集 。 


然后 ， 调 用 方法 .collect () 执行 这 些 步骤 。 这 一 步 是 在 我 们 的 数据 集 上 进行 操作 ， 最 终 统计 出 该 数据 集中 的 不 同 元 素 的 次 
效 。 实 际 上 ， 访 操作 可 能 会 在 映射 之 前 先 改 变 转换 顺序 并 过 滤 数 据 ， 导 致 将 较 小 的 数据 集 传递 给 reducer。 


p 
Mou 
Ke 
- 


一 如 果 你 还 不 明白 之 前 的 指令 ， 别 担心 ， 我 们 会 在 本 章 后 面 的 部 分 做 出 详细 解释 。 


2.2 创建 RDD 


PySpark 中 ， 有 两 种 方法 可 以 创建 RDD: 


要 么 用 .parallelize (http://www.hzcourse.com/resource/readBook? 


pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 集合 (元素 list 或 array) : 


data = sc.parallelize( 
[('Amber', 22), ('Alfred', 23), ('Skye',4), ('Albert', 12), 
('Amber', 9)]) 


要 么 引用 位 于 本 地 或 者 外 部 的 某 个 文件 (或 者 多 个 文件 ) : 


data from file = sc.\ 
textFile( 
'/Users/drabast/Documents/PySpark Data/VS14MORT.txt.gz', 
4) 


; 
um d 
È, 

& 


一 从 ftp: //ftp.cdc.gov/pub/Health_Statistics/NCHS/Datasets/DVS/mortality/mort2014us.zip 下 载 Mortality 数 据 集 


VS14MORT.txt 文 件 (2016 年 7 月 31 日 访问 ) ; 记录 的 模式 在 该 文档 中 解 
释 : http://www.cdc.gov/nchs/data/dvs/Record_Layout_2014.pdf。 选 择 这 些 数 据 集 的 目的 是 : 这 些 记录 的 编码 会 帮助 我 们 在 本 章 中 


理解 如 何 使 用 UDF 变 换 你 的 数据 。 为 了 方便 ， 我 们 也 在 此 链接 中 上 传 了 该 文件 : http://tomdrabas.com/data/VS14MORT.txt.gz。 


sc.textFile (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/..., n) 方法 中 的 最 后 一 个 参数 代表 该 数据 集 被 划分 
的 分 区 个 数 。 


以 经 验 法 则 是 把 每 一 个 集群 中 的 数据 集 分 成 2 到 4 个 分 区 。 


Spark 可 以 从 多 个 文件 系统 中 读 取 : 如 NTFS、FAT 这 类 的 本 地 文件 系统 ,或 者 Mac OS Extended (HFS+) ， 或 者 如 
HDFS、S3、Cassandra 这 类 的 分 布 式 文 件 系 统 ， 还 有 其 他 各 类 的 文件 系统 。 


避免 数据 集 从 这 样 的 路 径 读 取 或 者 被 保存 到 这 样 的 路 径 ; 路 径 不 能 包含 特殊 字符 |。 注意 ， 这 也 适用 于 Amazon S3 或 者 


Microsoft Azure 数 据 存 储 的 存储 路 径 。 


支持 多 种 数据 格式 : 文本 、parquet、JSON、Hive tables (Hive 表 ) 以 及 使 用 JDBC 驱 动 程序 可 读 取 的 天 系数 据 库 中 的 数 
据 。 注 意 ，Spark 可 以 目 动 处 理 压 纺 数 据 集 (如 之 前 的 Gzipped 例 子 ) 。 


根据 数据 读 取 方 式 的 不 同 ， 持 有 的 对 象 将 以 略 有 不 同 的 方式 表示 。 从 文件 中 读 取 的 数据 表示 为 MapPartitionsRDD， 而 不 是 
使 用 .paralellize (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 对 一 个 集合 进行 操作 时 的 
ParallelCollectionRDD, 


2.2.1 Schema 


RDD 是 无 shema 的 数据 结构 (和 下 一 章 要 讨论 的 DataFrame 不 同 ) 。 因 此 在 以 下 的 代码 片段 中 的 并 行 数据 集 ， 通 过 Spark 使 
用 RDD 非 党 适用 : 


data heterogenous = sc.parallelize(I 
('Ferrari', 'fast'), 
('Porsche': 100000}, 
['Spain','visited', 4504] 
]).collect() 
所 以 ， 我 们 几乎 可 以 混合 使 用 任何 类 型 的 数据 结构 : tuple、dict 或 者 listf#0Spark 都 能 支持 。 
如 果 对 数据 集 使 用 方法 .collect () (执行 把 该 数 据 集 送 回 驱 动 的 操作 ) ， 可 以 访问 对 象 中 的 数据 ， 和 人 在 Python 中 弟 做 的 一 
样 。 


data heterogenous [1] ['Porsche' ] 
执行 的 结果 是 : 
collect () 万 法 把 RDD 的 所 有 元 素 返 回 给 驱动 程序 ， 驱 动 程序 将 其 序列 化 成 了 一 个 列表 。 


Q 我 们 会 在 本 章 之 后 的 部 分 讨论 更 多 有 关 .collection () 的 使 用 注意 事项 。 


2.2.2 ”从 文件 读 取 


从 文本 文件 读 取 数据 时 ， 文 件 中 的 每 一 行 形成 了 RDD 的 一 个 元 素 。 


data from file.take (1) 命令 输出 了 以 下 的 结果 (有 的 不 可 读 ) : 


out[7]: [' 1 
2101 M1087 432311 4M4 2014U7CN 


I64 238 070 24 0111164 


01 I64 
01 11 100 601'] 


为 了 增强 它 的 可 读 性 ， 我 们 可 以 创建 一 个 元 素 列表 ， 其 中 每 行 代表 一 个 值 的 列表 。 


2.2.3 LambdazEiX r® 


在 这 个 例子 中 ， 我 们 将 从 data_from file 的 隐藏 查看 记录 提取 有 用 的 信息 。 


ax 
一 请 参阅 本 书 GitHub 库 里 有 关 这 个 方法 的 细节 。 由 于 空间 的 限制 ， 只 呈现 了 该 完整 方法 的 缩写 版 本 ， 特 别 是 创建 Regex 表 


ik AQ (正则 表达 式 ) 的 时 候 。 可 以 在 此 找到 代 
码 : https://github.com/drabastomek/learningPySpatk/tree/master/Chapter03/LearningPySpark | Chapter03.1pynb. 


首先 ， 我们 在 下 列 代码 的 帮助 下 定义 万 法 ， 该 万 法 会 把 不 可 读 的 行 解析 成 我 们 能 够 使 用 的 信息 : 


def extractInformation(row): 
import re 
import numpy as np 
selected indices = [ 
2:290, ld LU.lLl,.L4.L3,.197,15,10,.L7,2010, 


TPrs10;,19,0.1.,02,03,84,85,07,909 
] 
record split = re\ 

.compile( 


([Ns1(19)) ([0-91 (1)) ([Ns1 (40]) 


De] (33)) ([0-9N81 {3}) ([0-9\s] {1}) ([0-9\s] (1]) !) 


LESS 

rs - np.array(record split.split(row)) [selected indices] 
except: 

rs = np.array(['-99'] * len(selected indices)) 


return rs 


4 


"T 定义 纯 Python 方 法 会 降低 应 用 程序 的 速度 ， 因 为 Spark 需 要 在 Python 解 释 器 和 JVM 之 间 连 续 切 换 。 你 要 尽 可 能 使 用 内 
X 8 Spark 3) fie 


接 下 来 ， 我 们 要 引入 必要 的 模块 : re 模块 ， 我 们 会 使 用 正则 表达 陈 来 解析 记录 ， 使 用 NumPy 可 以 缓解 一 次 选择 多 个 元 素 。 


最 后 ， 创 建 Regex 对 象 提取 指定 信息 并 通过 Regex 对 和 象 解析 行 。 


Vn 
一 我们 不 会 深入 到 细节 来 描述 正则 表达 式 。 可 以 在 此 找到 关于 正则 表达 式 的 提纲 https://www.packtpub.com/application- 


development/masteting-python-regular-expressions o 


一 旦 记录 被 解析 ， 我 们 融 过 试 着 将 列表 转换 成 NumPy 数 组 并 返回 该 数组 ; SUBRÁeHRIBIACRC, MERE — NIRIEN- 


99， 这 样 我 们 就 知道 该 记录 没有 被 正确 解析 。 


~ 


3 我 们 可 以 通过 使 用 .flatMap (http:/ /www.hzcoutse.com/resoutce/readBook? 
path= /openresources/teach_ebook/uncompressed/17232/OEBPS/Text/...) 隐 式 筛选 出 不 合 规 的 数据 ， 并 且 返 回 一 个 空 jistl， 而 不 是 - 


99。 查 看 细节 : http://stackoverflow.com/questions/34090624/remove-elements-from-spatk-rdd。 


现在 ， 我 们 要 使 用 extractinformation (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 分 割 和 转换 数据 集 。 请 注意 ， 我 们 只 把 签名 
方法 传 到 .map (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) : 在 每 一 个 分 区 中 ， 该 方法 每 次 都 会 传递 RDD 
的 一 个 元 素 给 extractlnformation (http://www.hzcourse.com/resource/readBook? 


pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 : 


data from file conv = data from file.map(extractInformation) 
isf1data from file conv.take (1) 命令 产生 以 下 的 结果 (缩减 版 ) : 


Out[4]: [array(['l', 
L'e 
'M', Zw '2014', 


:2338', '070', ' 01', '11164 


' " E A "a '100', '6'], 
dtype-'«uU40')] 


2.3 ”全 局 作用 域 和 局 部 作用 域 


作为 一 个 潜在 的 PySpark 用 尸 ， 你 需要 习惯 的 其 中 一 件 事 是 Spark 的 内 在 并 行 性 。 即 使 你 精通 Python ， 但 是 执行 PySpark 脚 本 
还 是 需要 你 改变 一 点 思维 模式 。 


Spark 可 以 在 两 种 模式 下 运行 : 本 地 的 和 集群 的 。 本 地 运行 你 的 Spark 代 码 时 ， 和 你 目前 使 用 的 Python 没有 什么 不 同 : TREO 
任何 其 他 部 分 来 训 ， 变 化 最 有 可 能 是 语法 上 的 ， 只 是 加 上 了 一 个 交织 的 部 分 ， 数 据 和 代码 人 在 不 同 的 工作 者 进程 之 间 复 制 。 


然而 ， 如 果 你 不 小 心 将 相同 的 代码 部 署 到 集群 ， 便 可 能 会 导致 大 量 的 困扰 。 这 束 需 要 了 解 Spark 是 怎么 在 集群 上 执行 工作 的 任 


务 的 。 


在 集群 模式 中 ， 提 交 执 行 任务 时 ， 任 务 被 友 送 给 了 驱动 程序 节点 (KAEDA) 。 该 驱动 程序 节点 为 任务 创建 DAG ( 见 第 1 
章 ) ， 并 且 决 定 哪 一 个 执行 者 (工作 者 ) 书 点 将 运行 特定 的 任务 。 


然后 ， 该 驱动 程序 指示 工作 者 执行 它们 的 任务 ， 并 且 在 结束 时 将 结果 返回 给 驱动 程序 。 然 而 在 这 之 前 ， 驱 动 程序 为 每 一 个 任 
务 的 终止 做 准备 : 驱动 程序 中 有 一 组 变量 和 方法 ， 以 便 工作 者 在 RDD 上 执行 任务 。 


这 组 变量 和 方法 在 执行 者 的 上 下 文中 本 质 上 是 静态 的 ， 即 每 个 执行 器 从 驱动 程序 中 获得 一 份 变量 和 方法 的 副本 。 运 行 任务 
时 ， 如 果 执 行者 改变 这 些 变量 或 者 覆 关 这 些 方法 ， 它 不 影响 任何 其 他 执行 者 的 副本 或 者 驱动 程序 的 变量 和 方法 。 这 可 能 会 导致 一 
些 蕊 想不到 的 行为 和 运行 错误 ， 这 些 行为 和 错误 通常 都 很 难 被 追 路 到 |。 


Vn 
一 查看 PySpatk 文 档 更 多 实例 的 讨论 : http://spark.apache.org/docs/latest/programming-guide.htmlz£local-vs-cluster-modes. 
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一 由 于 空间 的 限制 ， 在 这 里 我 们 只 包含 了 最 经 常 使 用 的 转换 和 操作 。 对 于 一 套 完整 的 可 用 方法 ， 我 们 建议 你 查看 有 关 RDD 


的 PySpatk 文 档 http://spark.apache.org/docs/latest/api/python/pyspark.html#pyspatk.RDD., 


由 于 RDD 是 无 schema 的 ， 在 这 一 节 中 我 们 假设 你 已 经 知道 产生 数据 集 的 Schema。 如 果 你 记 不 住 解析 数据 集中 信息 的 位 置 ， 
我 们 建议 你 可 以 参考 GitHub 上 extractlnformation (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 的 定义 ， 以 及 第 3 章 的 代码 。 


2.4.1 .map (http://www.hzcourse.com/resource/readBook? 


path z/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 转换 


可 以 说 ， 你 会 经 常 使 用 .map (http:;//www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 转换 。 该 方法 应 用 在 每 个 RDD 元 素 上 : 在 
data from _file_conv 的 数据 集 情 况 里 ， 你 可 以 认为 这 是 每 一 行 的 转换 。 


在 这 个 例子 里 ， 我 们 会 创建 一 个 新 的 数据 集 ， 将 死亡 年 份 转换 为 数字 值 。 


data 2014 = data from file conv.map(lambda row: int(í(row[16])) 


运行 data_2014.take (10) 命令 将 产生 以 下 结果 : 


Out[11]: [2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, 2014, -99] 


大 一 加 果 你 不 熟悉 lambda 表 达 式 ， 请 参考 : https://pythonconquerstheuniverse.wordpress.com/2011/08/29/lambda_tutorial/ o 


当然 ， 你 可 以 使 用 更 多 列 数据 ， 但 是 你 必须 把 它们 打包 成 一 个 数组 (tuple) 、dict 或 者 列表 。 包 合 一 行 里 的 第 17 个 元 素 ， 以 
便 我 们 可 以 确认 .map (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 能 按 预 期 执行 。 


data 2014 2 = data from file conv.map( 
lambda row: (row[16], int(rowl161):) 
data 2014 2.take(5) 


之 前 的 代码 将 产生 如 下 的 结 


Out[12]: [('2014', 2014), 
('2014', 2014), 
('2014', 2014), 
('2014', 2014), 
('2014', 2014), 


('2014', 2014), 
('2014', 2014), 
('2014', 2014), 
('2014', 2014), 
('-99', -99)] 


24.2 filter (http://www.hzcourse.com/resource/readBook? 


path-/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 转换 


另外 一 个 经 常 需要 使 用 的 转换 方法 是 .filter (http:;//www.hzcourse.com/resource/readBook? 
path-/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) ， 该 方法 可 以 让 你 从 数据 集中 选择 元 素 ， 该 元 素 
集 符 合 特定 的 标准 。 像 来 自 data from file conv 数 据 集 的 例子 ， 统 计 2014 年 死 于 车 祸 的 人 数 : 


data filtered = data from file conv.filter( 
lambda row: row[16] == '2014' and row[21] == '0'") 
data filtered.count() 


3 请 注意 ， 前 面 的 命令 执行 时 间 根 据 电脑 的 执行 速度 而 定 。 对 于 我 们 来 说 ， 一 条 命令 返回 结果 的 时 间 大 概 是 2 分 钟 多 一 点 。 


2.4.3 .flatMap (http:;//www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 转换 


flatMap (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 
和 .map (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/..) 方法 的 工作 类 似 ， 但 
是 .flatMap (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 返回 一 个 局 平 的 结果 ， 而 不 是 一 个 列表 。 如 果 我 
们 执行 一 下 代码 : 
data 2014 flat = data from file conv.flatMap(lambda row: (row[16], 
int(row[16]) + 1)) 
data 2014 flat.take(10) 


该 代码 将 输出 : 


Out[14]: ['2014', 2015, '2014', 2015, '2014', 2015, '2014', 2015, 


'2014', 2015] 


你 可 以 和 data_2014 2 产生 的 结果 对 比 。 同 时 注意 ， 如 前 所 述 ， 当 你 需要 解析 输入 
时 .flatMap (http://www.hzcourse.com/resource/readBook? 
path-/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 可 以 用 于 过 滤 一 些 格式 不 正确 的 记录 。 在 这 个 机 
制 下 ，.flatMap (http:;//www.hzcourse.com/resource/readBook? 
path-/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 把 每 一 行 看 做 一 个 列表 对 待 ， 然 后 将 所 有 的 
记录 简单 地 加 入 到 一 起 。 通 过 传递 一 个 空 列表 可 以 丢弃 格式 不 正确 的 记录 。 


2.4.4 .distinct (http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 转换 


该 方法 返回 指定 列 中 不 同 值 的 列表 。 如 果 你 想 知 道 你 的 数据 集 或 者 验证 这 个 数据 
Œ, .distinct (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/..) 方法 会 非常 有 有 用。 检查 性 别 列 表 是 否 只 包含 了 男 
性 和 女性 将 验证 我 们 是 否 准确 解析 了 数据 集 。 运 行 以 下 代码 : 


distinct gender = data from file conv.map( 
lambda row: row[5]).distinct () 
distinct gender.collect () 


该 代码 将 产生 以 下 结果 : 


Out[22]: ['-99', 'M', 'F'] 


Am, 我们 只 提取 包含 性 别 的 列 ; 接着 ， 我 们 使 用 .distinct () 方法 只 选择 列表 中 不 同 的 值 ; 最 后 ， 使 用 .collect () 方法 在 


FLJ REHE, 


Q. 


请 注意 这 是 一 个 高 开销 的 方法 ， 应 该 谨慎 并 且 只 在 处 理 数据 的 必要 时 刻 使 用 。 


2.4.7 .repartition (http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 转换 


重新 对 数据 集 进行 分 多， 改变 了 数据 集 分 区 的 数量 。 此 功能 应 该 谨 愤 并 且 仪 当真 正 需 要 它 来 对 数据 进行 操作 时 使 用 ， 因 为 它 
会 重组 数据 ， 导 致 对 性 能 万 面 产 生 巨大 的 影响 。 


rddl = rddl.repartition(4) 
len(rdd1.alom().collect(í)) 


这 段 代 码 打印 出 来 4， 作 为 新 的 分 区 数目 。 


和 .collect () 方法 不 同 ，.glom () 万 法 会 产生 一 个 列表 ， 其 中 每 个 元 素 是 指定 分 区 中 数据 集 的 所 有 元 素 的 另 一 个 列表 。 返 
回 的 主要 列表 的 元 素 和 分 区 的 数量 一 样 多 。 


2.5.1 .take (http:;//www.hzcourse.com/resource/readBook? 


path z/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 万 法 


这 可 以 说 是 最 有 用 的 方法 (也 是 用 得 最 多 的 方法 ， 如 .map (http;//www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/..) 方法 ) 。 该 方法 优 
于 .collect (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) ， 因 为 它 只 返回 单个 数据 分 区 的 前 n 行 ， 对 比 之 
下 ，.collect (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 返回 的 是 整个 RDD。 处 理 大 数据 集 时 ， 这 个 区 
别 很 重要 : 


data first = data from file conv.take(1) 
如 果 你 想 要 些 随机 的 记录 ， 可 以 使 用 .takeSample (http://www.hzcourse.com/resource/readBook? 


path-/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) ， 这 个 方法 有 三 个 参数 : 第 一 个 参数 代表 采样 是 
否 应 该 被 替换 ;第 二 个 参数 指定 要 返回 的 记录 数量 ; 第 三 个 参数 是 伪 随 机 数 友 生 器 的 种 子 : 


data take sampled = data from file conv.takeSample(False, 1, 667) 


2.5.2 .collect (http:;//www.hzcourse.com/resource/readBook? 


pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 万 法 


该 方法 将 所 有 RDD 的 元 素 返回 给 驱动 程序 。 正 如 之 前 提出 的 警告 ， 在 此 就 不 重复 了 。 


2.5.3 .reduce (http:;//www.hzcourse.com/resource/readBook? 


pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 万 法 


reduce (http://www.hzcourse.com/resource/readBook? 


pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 使 用 指定 的 方法 减少 RDD 中 的 元 素 。 
你 可 以 利用 该 方法 计算 RDD 忆 的 元 素数 量 : 


rddl1.map(lambda row: row[1]).reduce(lambda x, y: x + y) 


这 行 代码 输出 的 总 数 是 12。 


首先 通过 .map (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 转换 ,创建 一 个 包含 rdd1 所 有 值 的 列表 ， 然 后 
使 用 .reduce (http://www.hzcourse.com/resource/readBook? 
path-/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 对 结果 进行 处 理 。 在 每 一 个 分 区 
里 ，reduce (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 运行 求 和 方法 (lambda 表达 了 式 ) 将 该 总 和 


返回 给 最 终 聚 合 所 在 的 驱动 程序 节操 。 


这 里 要 谨慎 一 点 。teducet 传 递 的 函数 需要 是 关联 的 ， 即 元 素 顺 序 改变 ， 结 果 不 变 ; 该 函数 还 需要 是 交换 的 ， 即 操作 符 顺 


序 改 变 ， 结 果 不 变 。 


关联 规则 的 例子 是 (5+2) +3=5+ (2+3) ， 交 换 规 则 的 例子 是 5+2+3=3+2+5。 因 此 ， 你 需要 注意 你 传递 给 teducet 的 功能 是 


TAs 
如 果 忽 略 前 面 的 规则 ， 你 可 能 会 遇 到 麻烦 〈 假 设 你 的 代码 都 在 运行 ) 。 例 如 假设 我 们 有 以 下 RDD (只 有 一 个 分 区 ! ) : 


data reduce = sc.parallelize(|l, 2, .5, .1, 5, .2], 1) 
如 果 以 某 种 方式 减少 数据 ， 我 们 硕 望 通过 后 面 的 结果 划分 当前 的 结果 ， 我 们 硕 望 值 是 10: 


Works = data reduce.reduce(lambda x, y: x / y) 


但 是 ， 如 果 将 数据 划分 为 三 个 分 区 ， 结 果 是 错误 的 : 


data reduce = sc.parallelize([1, 2, .5, .1, 5, .2], 3) 


data reduce.reduce(lambda x, y: x / y) 


产生 的 结果 是 0.004。 


reduceByKey (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 
和 .reduce (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 类 似 ， 
但 .reduceByKey (http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 是 在 键 - 键 基础 上 进行 : 


data key = sc.parallelize( 
Maty alel Dre arien Ar a D d Fri Dy Lj 
rd" 3I 14:1) 

data key.reduceByKey(lambda x, y: x + y).collect() 


这 段 代码 输出 的 结果 是 : 


Out[122]: [('b', 4), ('c', 2), (a, 12), ( d^, 5)] 


2.5.4 .count (http:;//www.hzcourse.com/resource/readBook? 


path -/openresources/teach ebook/uncompressed/17232/OEBPS/Text/..) 方法 


.count (http:;//www.hzcourse.com/resource/readBook? 


path-/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 统计 出 了 RDD 里 的 元 素数 量 。 使 用 以 下 的 代 
55: 


data reduce.count() 


该 代码 输出 6， 也 就 是 data_reduce RDD 里 的 确切 元 素数 量 。 


.COunt (http:;//www.hzcourse.com/resource/readBook? 


path-/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 产生 了 和 如 下 方法 同样 的 结果 ， 但 是 该 方法 
不 需要 把 整个 数据 集 移动 到 驱动 程序 : 


len(data reduce.collect()) # WRONG -- DON'T DO THIS! 
如 果 数 据 集 是 key-value 形 式 ， 你 可 以 使 用 .countByKey () 方法 获取 不 同 键 的 计数 。 运 行 以 下 代码 : 


data key.countByKey () .items() 


这 段 代 码 产 生 的 结果 如 下 : 


Out[132]: dict items([('a', 2), (br 2), ('d', 2), ('c', 1)]) 


2.5.5 .saveAsTextFile (http:;//www.hzcourse.com/resource/readBook? 


path z/openresources/teach ebook/uncompressed/17232/OEBPS/Text/..) 73iX 


正如 方法 的 名 字 所 说 ， 对 RDD 执 行 .saveAsTextFile (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 可 以 让 RDD 保 存 为 文本 文件 : 每 个 文件 一 个 分 
区 : 


data key.saveAsTextFile( 
'/Users/drabast/Documents/PySpark Data/data key.txt') 


要 读 取 它 ， 需 要 解析 它 ， 因 为 所 有 行 都 被 视 为 字符 捉 : 


def parseInput (row): 
import re 
pattern = re.compile(r'N(N'([a-z])N', ([0-9])X) !) 
row Split = pattern.split(row) 
return (row splití[1], intí(row splitií21)) 


data key reread = sc \ 
.textFile( 
'/Users/drabast/Documents/PySpark Data/data key.txt') ^ 
.map(parseInput) 
data key reread.collect () 


读 取 的 键 列表 和 我 们 最 初 有 的 匹配 : 


Out[159]: [('a', 4), ('b', 3), ('c', 2), ('a', 8), ('d', 2), ('b', 1), ('d', 3)] 


2.6 小结 


RDD 是 Spark 的 核心 ; 这 些 无 schema 数 据 结构 是 在 Spark 中 处 理 的 最 基本 的 数据 结构 。 


这 一 草 中 ， 我 们 展示 了 从 文本 文件 创建 RDD 的 方式 ， 通 过 .parallelize (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 以 及 从 文本 文件 中 读 取 数 据 。 另 外 ， 一 些 非 
结构 化 数据 的 处 理 方法 也 在 此 展示 。 


Spark 中 的 转化 是 惰性 的 ， 它 们 只 在 操作 家 调 用 时 应 用 。 这 一 章 中 ， 我 们 过 论 并 展示 了 最 通用 的 转换 和 操作 ; 更 多 的 PySpark 


X RI &Trhttp://spark.apache.org/docs/latest/api/python/pyspark.html£pyspark.RDD, 


Scala 和 Python RDD 之 间 一 个 主要 的 区 别 是 速度 : Python RDD 比 Scala 慢 很 多 。 


下 一 草 ， 我 们 将 引导 你 完成 使 PySpark 应 用 程序 与 Scala 中 编写 的 数据 结构 相符 的 数据 结构 


DataFrame, 


A34  DataFrame 


DataFrame 是 一 种 不 可 变 的 分 布 式 数据 集 ， 这 种 数据 集 被 组 织 成 指定 的 列 ， 类 似 于 天 系数 据 库 中 的 表 。SchemaRDD 作 为 
Apache Spark 1.0 版 本 中 的 试验 性 功能 ， 它 在 Apache Spark 1.3 版 本 中 被 命名 为 DataFrame。 对 于 熟悉 Python pandas 
DataFrame 或 者 R DataFrame 的 读者 ，Spark DataFrame 是 一 个 近似 的 概念 ， 即 允许 用 户 轻 松 地 使 用 结构 化 数据 (如 数据 表 ) 。 
不 过 也 仔 在 一 些 差 异 ， 所 以 请 一 起 期 待 吧 。 


通过 在 分 布 式 数据 集 上 施加 结构 ， 让 Spark 用 户 利 用 Spark SQL 来 查询 结构 化 的 数据 或 使 用 Spark 表 达 式 方法 (而 不 是 
lambda) 。 在 本 章 中 ， 我 们 将 给 出 两 种 方法 的 代码 示例 。 通 过 构建 数据 ， 使 得 Apache Spark 引 擎 一 一 具体 来 况 丈 是 catalyst 优 
化 器 (Catalyst Optimizer) 显著 提高 了 Spark 的 查询 性 能 。Spark 早 期 的 APl 中 ( 即 RDD) ， 由 于 Java JVM 和 Py4J 之 间 的 通 
言 开 销 ， 使 用 Python 执行 的 查询 会 明显 变 慢 。 


— 4 
& O, 
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—— Je RARA SSparkit AIRA (Spark 1.x) 中 的 DataFrame， 你 会 注意 到 Spatk 2.0 中 我 们 使 用 SpatkSession 来 替代 SQLContext。 
各 种 Spatk 的 上 下 文 语 境 


HiveContext、SQLContext、StteamingContext 和 SpatkContext 都 被 整合 到 了 SpatkSession。 这 样 一 来 ， 只 需 


要 将 此 会 话 作 为 读 取 数据 的 入 口 点 ， 和 元 数据 、 配 置 以 及 群集 资源 管理 一 起 来 使 用 。 


更 多 的 信息 请 参阅 How to use SparkSession in Apache Spatk2.0 (http://bit.ly/2br0Fr1) o 


3.1 Python 到 RDD 之 间 的 通信 


每 当 使 用 RDD 执 行 PySpark 程 序 时 ， 洪 在 地 需要 巨大 的 开销 来 执行 作业 。 如 下 图 所 示 ， 在 PySpark 驱 动 器 中 ，Spark Context 
通过 Py4j 局 动 一 个 使 用 JavasparkContext 的 JVM。 所 有 的 RDD 转 换 最 初 都 映射 到 Java 中 的 PythonRDD 对 象 。 


一 旦 这 些 任务 被 推送 到 Spark 工 作 节 点 ，PythonRDD 对 象 束 使 用 管道 (pipe) 局 动 Python 的 子 进程 (subprocess) , AX 
代码 和 数据 到 Python 中 进行 处 理 : 


工作 市 所 


Spark Worker 


虽然 该 万 法 允许 PySpark 将 数据 处 理 分 布 到 多 个 工作 节操 的 多 个 Python 子 进程 中 ,但 是 如 你 所 见 ，Python 和 JVM 之 间 还 是 有 
很 多 上 下 文 切 换 和 通信 开销 的 。 


«c 
S> 一 个 有 关 PySpatk 性 能 的 优秀 资源 是 Holden Karau fj Improving PySpark Performance: Spark performance beyond the 


JVM (http://bit.ly/2bx89bn) 。 


3.2. ” Catalyst 优 化 器 刷新 


正如 第 1 章 所 述 ，Spark SQL 引擎 如 此 之 快 的 主要 原因 之 一 是 Catalyst 优 化 器 。 对 于 拥有 数据 库 背 景 的 读者 ， 这 张 图 看 起 来 类 
似 于 关系 数据 库 官 理 系 统 (RDBMS) 的 逻辑 /物理 计划 和 成 本 模型 /基于 成 本 的 优化 。 


其 意义 在 于 ， 相 对 立即 处 理 人 查询 来 说 ，Spark 引 擎 的 Catalyst 优 化 器 编译 并 优化 了 逻辑 计划 ， 而 且 还 有 一 个 能 够 确保 生成 最 有 
效 的 物理 计划 的 成 本 优化 器 。 如 下 图 : 


代码 生成 


物理 MANN 
— ET ww 


| | 
未 解决 的 | 优化 的 
| $H 


E X IE RET Xd 逻辑 计划 


分 析 逻辑 优化 成 本 优化 器 
物理 计划 


M | 

一 正如 前 几 章 所 述 ，Spark SQL 引 掌 既 有 基于 规则 的 优化 ， 也 有 基于 成 本 的 优化 ， 包 括 (但 不 仅 限 于 ) 谓词 下 推 和 列 精 
简 。 针 对 Apache Spark 2.2 版 本 ，jita 项 E [SPARK-16026]Cost-based Optimizer Framework (https: / /issues.apache.org/jira/browse/SPARK- 
16026) 就 像 一 张 “ 通 票 ”， 除 广播 连接 选择 外 ， 还 实现 了 基于 成 本 的 优化 器 框架 。 更 多 的 信息 请 参阅 Design Specification of Spark 


Cost-Based Optimization (http://bit.ly/2li1t4T) o 


作为 Tungsten 项 目的 一 部 分 ， 其 通过 生成 字 节 人 码 进一步 改进 性 能 (代码 生成 或 codegen) 而 不 需要 解释 每 一 行 数据 。 在 
1.2.6 节 中 可 以 找到 更 多 有 关 Tungsten 的 细节 。 


如 前 所 述 ， 优 化 器 是 基于 功能 的 编程 结构 ， 并 且 其 设计 有 两 个 目的 : 为 了 便于 对 Spark SQL 添加 新 的 优化 技术 和 功能 ， 以 及 
允许 外 部 开 友 人 员 扩 展 优化 器 (如 添加 数据 源 特 定 规划、 支持 新 的 数据 类 型 等 等 ) 。 


“S> 更 多 的 信息 ， 请 参阅 Michael Armbtust 的 精彩 演讲 Sttuctuting Spark: SOL DataFrames, Datasets, and 


Streaming (http://bit.ly/2cJ508xCatalyst) 。 
对 于 Catalyst 优 化 器 更 深入 的 理解 ， 请 参阅 Deep Dive into Spark SQL s Catalyst Optimizer (http://bit.ly/2bDVB1T) o 


另外 ， 有 关 Tungsten 项 目的 更 多 信息 ， 请 参阅 Ptoject Tungsten: Bringing Apache Spark Closer to Bare 
Metal (http://bit.ly/2bOIIKY) 以 及 Apache Spark as a Compiler: Joining a Billion Rows per Second on a 


Laptop (http://bit.ly/2bDWtnc) o 


3.3 ”利用 DataFrame 加 速 PySpark 


DataFrame 和 Catalyst 优 化 器 (以 及 Tungsten 项 目 ) 的 意义 是 在 和 非 优 化 的 RDD 查 询 比 较 时 增加 PySpark 查 询 的 性 能 。 如 下 
图 所 示 ，3 引 入 DataFrame 之 前 ，Python 查 询 速 度 普遍 比 使 用 RDD 的 Scala 查 询 慢 (后 者 快 两 倍 ) 。 通 常情 况 下 ， 这 种 查询 性 能 的 
降低 源 于 Python 和 JVM 之 间 的 通信 开销 : 


SQL — — | 
R M 
DataFrame | 
python WEEE 
-Java/Scala NENNEN 
| 
RDD 一 ] | 
| Java/Scala MENNENEEENEEEEEEEENEENN 
3 | | | 
0 2 4 6 8 10 


^E ZTT ( 秒 ) 


资料 来 源 : Introducing DataFrames in Apache-spark for Large Scale Data Science (http://bit.ly/2blIDBIT) 


使 用 DataFrame， 过 去 不 仅 有 了 明显 的 Python 性 能 改进 ， 现 在 还 有 Python、Scale、SQL 和 R 之 间 的 性 能 校 验 。 


A QOO, RPA QUI MAU UMANE, IA 
Python 和 java 虚拟 机 之 间 的 往返 通信 。 请 注意 ， 这 将 是 最 坏 的 情况 ， 如 果 计算 基于 RDD 来 做 ， 情 况 将 会 是 相似 的 。 


即使 Catalyst 优 化 器 的 代码 库 是 用 Scala 写 的 ，Python 也 可 以 利用 Spark 中 性 能 优化 的 优势 。 通 常 ， 这 是 一 个 大 约 2000 行 代码 
的 Python 包装 ， 可 以 允许 PySpark DataFrame 的 查询 变 得 快 很 多 。 


kA, Python DataFrame 和 SQL、Scala DataFrame 以 及 R DataFrame 都 能 够 利用 Catalyst 优 化 器 (按照 以 下 更 新 的 
š) : 


物理 


-一 | 物理 oO mR 
* om a I 计划 B 
—E 物理 
dis -e-9 
EE " Ñg 物理 E İvi 
"E. | 计划 C 
E 优化 的 


Jem o LL UM A- 


计划 Z 


分 析 逻辑 优化 成 本 优化 器 
Prentiss i 


物理 计划 


ZS, 更 多 的 信息 ， 请 参阅 博客 文章 Introducing DataFrames in Apache Spark for Large Scale Data 
Science (http://bit.ly/2bIDBI1) ， 还 有 Reynold Xinf Spark/4 2-201578 ZFFrom DataFrames to Tungsten: A Peek into Spark" s 
Future (http://bit.]ly/2bQN92T) 。 


3.4 创建 DataFrame 


通常 情况 下 ， 通 过 使 用 SparkSession 导 入 数据 (或 者 调用 PySpark 的 shell 脚 本 spark) 来 创建 DataFrame。 


Q 在 Spatk 1.x 版 本 中 ， 通 常 必须 使 用 sqlContext。 


后 几 章 中 ， 我 们 将 讨论 如 何 将 数据 导入 你 的 本 地 文件 系统 、Hadoop 分 布 式 文件 系统 (HDFS) 或 者 其 他 的 云 存 储 系统 (例如 
S3 或 者 WASB) 。 在 本 章 中 ， 我 们 的 重点 是 在 Spark 中 直接 生成 你 自己 的 DataFrame 数 据 或 者 利用 Databricks 社 区 版 中 的 现成 数 
据 源 。 


3 关于 如 何 注 册 Databticks 社 区 版 的 说 明 ， 请 参阅 额外 的 章节 。 


首先 ， 不必 访问 文件 系统 ， 我 们 将 通过 生成 的 数据 创建 一 个 DataFrame。 在 这 种 情况 下 ， 我 们 会 先 创建 stringJSONRDD 
RDD， 然 后 将 它 转 换 成 一 个 DataFrame。 这 段 代码 用 JSON 格 式 创建 了 一 个 由 几 个 游泳 选手 (他们 的 1D、 名 字 、 年 龄 、 有 眼睛 颜 
色 ) 组 成 的 RDD。 


3.4.1 ”生成 自己 的 JSON 数 据 


接 下 来 ,我们 将 开始 生成 stringJSONRDD RDD: 


stringJSONRDD = sc.parallelize((""" 
p Uc": VIDT, 
"name": "Katie", 
"age" LJ; 
"eyecolor"; "brown" 
un. 
TU". TASo 
"name": "Michael", 
"age": 22, 
"eyeColor": "green" 
ned 
"ig. w345 
"name": "Simone", 
"age": 23, 
"evecolor": "Diue" 


LLLI 


现在 ， 我 们 已 经 创建 了 RDD， 利 用 SparkSession read.json 方 法 ，RDD 将 会 被 转换 成 一 个 DataFrame (Bp 


spark.read.json (http://www.hzcourse.com/resource/readBook? 


pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) ) 。 我 们 还 可 以 利 
用 .createOrReplaceTempView 方 法 创建 一 个 临时 表 。 


T Spark 1.x 中 ， 该 方法 是 registetTempTable， 但 在 Spark 2.x 中 该 方法 却 是 被 废弃 的 方法 之 一 。 


3.4.2 创建 一 个 DataFrame 


以 下 是 创建 DataFrame 的 代码 : 


swimmersJSON = spark.read.json(stringJSONRDD) 


3.4.3 ”创建 一 个 | 


mz 


以 下 是 创建 临时 表 的 代码 : 


swimmersJSON.createOrReplaceTempView("swimmersJSON") 


在 前 面 的 章节 中 提 到 过 ， 许 多 的 RDD 操 作 都 是 有 相关 转换 的 ， 直 到 行动 操作 执行 ， 这 些 RDD 操 作 都 不 会 被 执行 。 例 如 在 前 面 
的 代码 段 中 ，sc.parallelize 是 执行 利用 spark.read.json 从 RDD 转 化 成 DataFrame 时 的 一 个 转换 。 请 注意 ， 在 这 段 代 码 的 电脑 屏幕 
截图 中 (靠近 左下 ) ， 直 到 第 二 个 含有 spark.read.json 操 作 的 子 代 码 出 现 ，Spark 工 作 都 不 会 被 执行 。 


虽然 这 些 是 源 自 Databticks 社 区 版 的 截屏 ， 但 是 所 有 的 示例 代码 和 Spatk UI 截 屏 可 以 在 任何 Apache Spark 2.x 的 版 本 中 执行 / 查 
看 。 


为 了 进一步 强调 这 一 点 ， 在 下 图 的 右 窗 格 中 ， 我 们 展示 了 执行 的 DAG 图 . 


ce 《 
NÉ NN 
AN 


-一 一 个 更 加 便于 理解 Spatk UI DAG 可 视 化 的 优质 资源 是 一 篇 博客 文章 Understanding Your Apache Spark Application Through 


Visualization (http://bit]y/2cSemkv) o 


在 以 下 的 截屏 中 ， 你 可 以 看 到 Spark 工 作 的 parallelize 操 作 源 于 生成 RDD stringJSONRDD 的 第 一 个 代码 块 ， 创 建 DataFrame 
需要 map 操 作 和 mapPartitions 操 作 : 


d Allached:paxías-2.1 2.11= 国 FieEv  Gejvew: Code ~v a G Rr AI A Cear Res its 


"id": "234", 
"name": "Michael", Jobs Stages Storage Erwironment Executors 
"age": 22, 
"eyeColor": "green" Details for Job 75 
t i Status: SUCCEEDED 
"4d"; "345" Job Group: 793201996691933798 6166791273381544484 cd2 
= , 
"name": "Simone", Completed Stages: 1 
"age": 23, b Event Timeline 
"eyeColor": "blue" vDAG Visualization 
Jane) 
) Stage 93 
parallelize 


Command took 8.84 seconds -- by denny.g.leeggmail.com at 2/2 


> # Create DataFrame 
swimmersJSON - spark.read.json(stringJSONRDD) 


v (1) Spark Jobs 
> Job 75 View (Stages: 1/1) 


Command took 8.27 seconds -- by denny.g.leeggmail.com at 2/2 


> # Create temporary table 
swimmersJSON.createOrReplaceTempView("swimmersJSC 


Command took 8.87 seconds =- by denny.g.leeggmail.com at 2/2 


spark.tead.json (stringSONRDD) 工作 的 DAG 可 视 化 Spark UI 


在 接 下 来 的 截屏 中 ， 你 能 看 到 parallelize 操 作 的 各 个 阶段 正 来 自 于 生成 RDD stringJSONRDD 的 第 一 个 代码 块 ， 创 建 
DataFrame 需 要 map 操 作 和 mapPartitions 操 作 : 


[te A eT 
| j T LIT Y 
i b] 

ANDES 0 


spatk.read.json (stringlSONRDD) 工作 中 各 个 阶段 的 DAG 可 视 化 Spatk UI 


重要 的 是 注意 parallelize、map 和 mappPartitions 都 是 RDD 转 换 而 来 。spark.read.json (在 这 个 例子 中 ) &zTEDataFrame 
中 ， 这 不 仅 是 RDD 转 换 ， 还 是 RDD 转 换 成 DataFrame 的 行动 。 这 是 一 个 重要 的 调用 ， 因 为 即使 你 执行 的 是 DataFrame 操 作 ， 调 
试 操 作 还 是 需要 你 记 住 并 理解 Spark UI 中 的 RDD 操 作 。 


请 注意 ， 创 建 临 时 表 是 一 次 DataFrame 和 转换， 并 且 只 有 直到 执行 DataFrame 动 作 时 ， 创 建 临 时 表 才 会 被 执行 (例如 ， 在 SQL 
中 的 查询 将 在 以 下 草书 执行 ) 。 


md 
一 DataFrame 的 转换 和 动作 与 RDD 的 转换 和 动作 类 似 ， 还 有 一 套 缓慢 的 (转换 ) 操作 。 但 是 ， 对 比 RDD，DataFrames 操 作 并 


不 是 缓慢 的 ， 主 要 是 源 于 Catalyst 优 化 器 。 更 多 的 信息 ， 请 参阅 Holden Karau 和 Rachel Warren] High Performance 


Spark (http://highperformancespatk.com/) 。 


3.5 ”简单 的 DataFrame 查 ] 旬 


现在 你 已 经 创建 了 swimmersJSON DataFrame， 我 们 便 可 以 运行 DataFrame 的 API 以 及 对 DataFrame 的 SQL 查询 。 我 们 用 
一 个 简单 的 查询 显示 DataFrame 内 的 所 有 行 。 


3.5.1 DataFrame API 理 名 


使 用 DataFrame APl 来 查询 ， 可 以 利用 show («n») 方法 ， 把 前 n 行 打印 到 控制 合 : 


Q iz er show () 方法 默认 显示 前 10 行 。 


di DataFrame API 


swimmersJSON.show() 


输出 如 下 : 


* (2) Spark Jobs 


lage|eyeColor| id| 


| 19| brown|123| Katie| 


| 22 | green|234|Michael | 


35.2 ”SQL 查询 
如 果 你 愿意 编写 SQL 语句 ， 则 可 以 编写 以 下 查询 : 

spark.sql ("select * from swimmersJSON").collect () 
输出 如 下 : 


* (1) Spark Jobs 


Out[6]: 
[Row(age-19, eyeColor-u'brown', id-u'123', name-u'Katie'), 


Row(age-22, eyeColor-u'green', id-u'234', name-u'Michael'), 
Row(age-23, eyeColor-u'blue', id-u'345', name-u'Simone')] 


Command took 0.175 


使 用 .collect () 方法 ， 返 回 行 对 象 列表 所 有 的 记录 。 请 注意 ， 针 对 DataFrame 和 SQL 查询 你 可 以 使 用 collect () 或 
show () 方法 。 只 要 确保 如 果 使 用 .collect () 方法 ， 针 对 的 是 小 的 DataFrame， 因 为 该 方法 会 返回 DataFrame 中 的 所 有 行 ， 并 
目 将 这 些 返回 行 从 执行 器 移动 到 驱动 器 。 另 外 你 可 以 使 用 take («n») 或 者 show («n») 方法 ， 通 过 定义 <n> 来 限制 返回 的 行 


局 注意 ， 如 果 使 用 Databticks， 你 可 以 用 gsql 命 令 并 且 直 接 在 笔记 本 中 运行 SQL 语句。 


> &sql 
-- Query Data 
select * from swimmersJSON 


* (3) Spark Jobs 


Command took 8.23 seconds -- by denny.g.leeggmail.com at 2/20/2817, 18:18:38 AM on pandas-2.1,2.11 


36 ”RDD 的 交互 操作 


有 两 种 从 RDD 变 换 到 DataFrame (或 者 Dataset[T]) 的 不 同方 法 : 使 用 反射 推断 模式 或 以 编程 方式 指定 模式 。 前 者 可 以 让 你 
写 出 更 简洁 的 代码 (如 果 你 的 Spark 应 用 程序 已 经 识别 该 模式 ) ， 而 在 列 和 DataFrame 的 数据 类 型 是 在 运行 时 才 友 现 的 情况 下 ， 
后 者 则 人 允许 你 构建 DataFrame。 注 意 ， 反 射 是 参照 模式 反射 (schema reflection) 而 不 是 Python reflection, 


3.6.1 ”使 用 反射 来 推断 模 忆 


在 建立 DataFrame 和 运行 查询 的 过 程 中 ， 我 们 略 过 了 DataFrame 的 模式 是 自动 定义 的 这 一 事实 。 最 初 ， 行 对 象 通过 传递 一 列 
键 / 值 对 作为 行 类 的 **kwargs 来 构造 。 然 后 ，Spark SQL 将 行 对 象 的 RDD 转 变 为 一 个 DataFrame， 在 DataFrame 中 键 就 是 列 ， 数 
据 类 型 通过 采样 数据 来 推断 。 


inewarps 结构 允许 你 在 运行 时 传递 一 个 可 变 的 参数 个 数 给 一 个 方法 。 


回 到 代码 部 分 ， 在 开始 创建 swimmersJSON DataFrame 之 后 ， 没 有 指定 模式 ， 你 会 注意 到 利用 printSchema () 方法 的 模 


# 打印 模式 


swimmersJSON.printSchema() 


输出 如 下 : 


age: long (nullable = true) 
eyeColor: string (nullable = true) 
id: string (nullable = true) 


name: string (nullable = true) 


Command took 59,875 


但 是 ， 在 这 个 例子 中 ， 因 为 我 们 知道 id 实 际 上 是 一 个 long 类 型 而 不 是 string 类 型 ， 那 么 要 是 我 们 想 指定 模式 ， 又 会 怎么 样 呢 ? 


3.6.2 ”编程 指定 模式 


在 这 种 情况 下 ， 我 们 通过 在 Spark SQL 中 引入 数据 类 型 (pyspark.sql.types) ， 以 编程 方式 来 指定 模式 ， 并 生成 一 些 .csv 数 
据 ， 如 下 例 所 示 : 
p 导入 类 型 
from pyspark.sql.types import * 


# 生成 以 逗号 分 隔 的 数据 
stringCSVRDD = sc.parallelize(I 
(123, 'Katie', 19, 'brown!'), 
(234, 'Michael', 22, 'green'!), 
(345, !'Simone', 223, 'blue!) 

]) 


首先 ， 我 们 根据 以 下 的 [Schema] 变 量 将 模式 编码 成 一 个 字符 串 。 然 后 我 们 会 利用 StructType 和 structField 定 义 模式 。 
# 指定 模式 

schema = StructType(l 

StructField("id", LongType(), True), 
StructField("name", StringType(), True), 
StructField("age", LongType(), True), 
StructField("eyeColor", StringType(), True) 

] ) 


注意 ，StructField 被 分 解 为 以 下 方面 : 
: name: 该 字段 的 名 字 
.dataIType: 该 字段 的 数据 类 型 
 nullable: 指示 此 字段 的 值 是 否 为 空 


最 后 ， 我 们 会 应 用 我 们 曾 为 stringCSVRDD RDD ( 即 生成 的 .csv 数 据 ) 创建 的 模式 (schema) ， 并 且 还 会 创建 一 个 临时 视 
图 ， 因 此 我 们 可 以 使 用 SQL 来 查询 。 


# 对 RDD 应 用 该 模式 并 且 创 建 DataFrame 
swimmers = spark.createDataFrame(stringCSVRDD, schema) 


# 利用 DataFrame 创建 一 个 临时 视图 
swimmers.createOrReplaceTempView("swimmers") 


有 了 这 个 例子 ， 我 们 对 模式 便 有 了 更 精细 的 控制 ， 并 且 可 以 明确 知道 jd 是 long 类 型 (上 一 节 中 id 是 一 个 string 类 型 ) : 
swimmers.printSchema() 
输出 如 下 : 
root 
|-- id: long (nullable = true) 
|==- name: string (nullable = true) 
|-- age: long (nullable = true) 


|-- eyeColor: string (nullable - true) 


局 在 许多 情况 下 ， 我 们 可 以 推断 模式 (如 上 一 节 所 示 ) 并 且 和 之 前 的 例子 一 样 ， 你 不 需要 指定 模式 。 


3.7 利用 DataFrame API 查 名 


如 上 一 节 所 述 ， 你 可 以 通过 collect () 、show () 或 者 take () 来 查看 DataFrame 中 的 数据 (show () 和 take () 包含 了 
限制 返回 行 数 的 选项 ) 。 


为 了 得 到 DataFrame 中 的 行 数 ， 你 可 以 使 用 count () 方法 : 
swimmers.count(í) 


输出 如 下 : 


Out [13]: 3 


3.7.2 ”运行 贤 选 语 和 名 


运行 一 个 烽 选 语句 ， 可 以 使 用 filter 子 句 (Ar) ;在 下 面 的 代码 段 中 ， 我 们 使 用 select 子 句 来 指定 要 返回 的 列 。 


# 获取 age=22 的 id 


swimmers.select("id", "age").filter("age = 22").show() 
# 上 述 查 询 的 另外 一 种 方法 如 下 
swimmers.select (swimmers.id, swimmers.age).filter(swimmers.age == 22).show() 


该 坦 询 的 输出 是 仅 选 择 age=22 的 id 列 和 age 列 


* (Z2) Spark Jobs 


一 一 一 路 一 一 一 二 


| id[age| 


十 一 一 一 十 一 一 一 十 


|234| 22| 


如 果 只 想 获 得 眼睛 颜色 是 字母 b 开 头 的 游泳 运动 员 的 名 字 ， 我 们 可 以 使 用 一 个 类 似 3QL 语 法 ，lke， 如 以 下 代码 所 示 : 


# 获得 eyeColor like 'b%' 的 (name) 名 字 ，(eyeColor) 眼睛 颜色 
swimmers.select("name", "eyeColor").filter("eyeColor like 'b$'").gshow() 


输出 如 下 : 


^ (2) Spark Jobs 


| Katie| brown | 
| Simone | blue | 


Command took 0.225 


3.8 利用 SQL 埋 询 


让 我 们 运行 相同 的 查询 ， 但 是 这 一 次 ， 我 们 将 对 相同 的 DataFrame 使 用 SQL 查询 。 记 住 ，DataFrame 是 可 访问 的 ， 因 为 我 们 
针对 swimmers 执 行 了 .createOrReplaceTempView 方 法 。 


以 下 是 在 你 的 DataFrame 中 利用 SQL 获得 行 数 的 代码 段 : 


spark.sql("select count(1) from swimmers").show() 


输出 如 下 : 


* (1) Spark Jobs 


— ÓÁ———X' 


| count(1) | 


Command took 


3.82 ”利用 where 子 句 运 行 筛 选 语句 


利用 SQL 运行 科 选 语句 ， 你 可 以 使 用 where 子 句 ， 如 以 下 代码 段 所 示 : 


# 用 SOL 获得 age-22 的 id, age 
spark.sql ("select id, age from swimmers where age = 22").show() 


查询 输出 的 是 仅 选 择 age=22 的 id 列 和 age 列 : 


2 5park Jobs 


(234| 22| 
+ 一 一 一 十 一 一 一 十 


Command took 0.275 


和 DataFrame API 得 询 一 样 ， 如 果 只 是 想 要 取 回 眼睛 颜色 以 字母 b 开 头 的 游泳 运动 员 的 名 字 ， 我 们 还 可 以 使 用 like 语 法 : 


Spark.sql( 
"Select name, eyeColor from swimmers where eyeColor like 'b$'").show() 


输出 如 下 : 


* (2) Spark Jobs 


name |eyecCoLlor | 

eomm ommo m a a aj m c mc m m m mo e 
Katie brown | 

| Simone | blue | 


R------4--------M 


Command took 8.275 


Q 更 多 的 信息 ， 请 参阅 http://bit.ly/2cdlwyx 中 的 Spark SQL, DataFrames, and Datasets Guide. 


全 有 Spark SQL 和 DataFrame 的 一 个 重要 提示 是 ， 虽 然 CSV、]JSON 以 及 各 种 各 样 的 数据 格式 便于 使 用 ,但 是 Spark SQL 分 析 
查询 最 常见 的 存储 格式 是 Parquet 文 件 格 式 。 这 是 一 个 许多 其 他 数据 处 理 系 统 支持 的 列 式 /柱状 格式 ， 并 且 对 于 自动 保存 原始 数据 模 
式 的 Parquet 文 件 ，Spark SQL 支持 这 些 Patquet 文 件 的 读 写 。 更 多 的 信息 ， 请 参阅 最 新 的 Spatk SOL Programming Guide? Parquet 
Files (http:/ /spark.apache.org/docs/latest/sql-programming-guide.htmlZparquet-files) 。 另 外 ， 许 多 有 关 Parguet 的 性 能 优化 ， 包 括 〈 但 
不 仅 限于) Automatic Partition Discovery and Schema Migration for Parquet (https:/ /databricks.com/blog/201 5/03/24/spark-sql-graduates- 
from-alpha-in-spatk-1-3.html) 以 及 How Apache Spark performs a fast count using the parquet 


metadata (https: //github.com/dennyglee/databricks/blob/master/misc/parquet-count-metadata-explanation.md) o 


3.9.1. ”准备 源 数 据 集 


首先 我 们 将 通过 指定 数据 集 的 文件 路 径 位 置 以 及 使 用 SparkSession 导 入 数据 集 ， 来 处 理 机 场 和 飞行 性 能 源 数据 集 : 


# 设置 文件 路 径 (Set File Paths) 

flightPerfFilePath = 
"/databricks-datasets/flights/departuredelays.csv" 
airportsFilePath - 
"/databricks-datasets/flights/airport-codes-na.txt" 


-H- AH 


# REIA AEE (Obtain Airports dataset) 

airports = spark.read.csv(airportsFilePath, header-2'true', 
inferSchema-'true', sep-'Nt!) 
airports.createOrReplaceTempView("airports") 


# 获得 起 飞 延 时 数据 集 (Obtain Departure Delays dataset 
flightPerf = spark.read.csv(flightPerfFilePath, header='true') 
flightPerf.createOrReplaceTempView("FlightPerformance") 


# 缓存 起 飞 延 雇 数 据 集 (Cache the Departure Delays dataset) 
flightPerf.cache() 


注意 ， 我 们 使 用 CSV 阅 读 器 (com.databricks.spark.csv) 导入 数据 ， 这 个 方法 适用 于 任何 指定 的 分 隅 符 〈 请 注意 机 场 数据 是 
制 表 符 (tab) 分 隅 的 ， 而 飞行 性 能 数据 是 逗号 (comma) 分 隔 的 ) 。 最 后 ,我们 对 飞行 数据 集 进行 缓存 ， 以 便 加 快 后 续 的 查 
询 。 


3.9.2 ”连接 飞行 性 能 和 机场 


其 中 一 个 有 关 DataFrame/SQL 的 较为 弟 见 的 任务 是 将 两 种 不 同 的 数据 集 关 联 在 一 起 ， 这 往往 是 一 个 难度 较 高 的 操作 (从 性 能 
的 角度 来 看 ) 。 使 用 DataFrame， 针 对 这 些 关 联 了 大 量 的 性 能 优化 默认 包括 : 


# 通过 城市 和 起 飞 代 码 查 词 圾 班 延 误 的 总 数 
E CAP gk AN) 

spark.sql(""" 

select a.City, 

EF e pin 

sum(f.delay) as Delays 

from FlightPerformance f 

Join airports a 

on a.IATA - f.origin 

where a.State = (WA 

group by a.City, f.origin 
order by sum(f.delay) desc""" 
) . show () 


在 我 们 的 场景 中 ， 通 过 城市 和 起 飞 代 码 查 询 华盛顿 州 的 航班 延误 总 数 。 这 惑 要 求 将 飞机 性 能 数据 和 机 场 数 据 ， 通 过 国际 航空 
运输 协会 (International Air Transport Association, HARIATA) 将 代码 关联 在 一 起 。 该 查询 输出 如 下 : 


» (2) Spark Jobs 


|  Citylorigin| Delays | 


牛 一 一 一 一 一 一 一 上 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 十 


ISeattle| ^ SEA|159086.0| 


|Spokane| | GEG| 12404 ,日 
| Pasco| PSC | 949.0 | 


Commband took 3.935 


使 用 笔记 本 (notebook) (如 Databricks、iPython、Jupyter 和 Apache Zeppelin) ， 你 可 以 更 轻松 地 执行 和 可 视 化 查询 。 
在 下 面 的 例子 中 ， 我 们 将 使 用 Databricks 笔 记 本 。 我 们 可 以 用 Python 笔 记 本 在 笔记 本 元 素 中 使 用 %sq| 冰 数 执行 SQL 语 人 句 : 


%gsql 

-- Query Sum of Flight Delays by City and Origin Code (for Washington 
State) 

select a.City, f.origin, sum(f.delay) as Delays 

from FlightPerformance f 
join airports a 
on a.IATA = f.origin 

where a.State = 'WA' 

group DY m.Ciby, E.Oorrgrin 

order by sum(f.delay) desc 


和 之 前 的 查询 一 样 ， 不 过 由 于 格式 不 同 更 容易 阅读 。 在 Databricks 笔 记 本 的 例子 中 ， 我 们 可 以 将 该 数据 快速 地 可 视 化 为 一 个 
FEE: 


150,000 
50,000 
0 gp —] 


Seattle, SEA Spokane, GEG Pasco, PSC 
起 飞 城市 


B ad ~ Piot 选 项 E 4 


3.9.3 ”可 视 化 飞行 性 能 数据 


Sql 


让 我 们 继续 可 视 化 数据 ， 分 解 美国 大 陆 上 的 所 有 联邦 州 |。 


-- Query Sum of Flight Delays by State (for the US) 
select a.State, sum(f.delay) as Delays 
from FlightPerformance f 
join airports a 


on a.IATA - f.origin 


where a.Country = 'USA' 
group by a.State 


输出 的 条 形 图 如 下 : 


延误 
3 
8 


0 
-200,000 


SCAZLAMNNJORVA RI WYKYNH MI NV WI ID CA CT NEMTNC VT MDMO IL MENDWAMS AL IN OH TNNM IA PA SDNY TXWVGAMAKS CO FL AK AR OK UT HI 


A, MRTE NKE, MAREE, machEdxZE PISBSZUEESEdER, GURETISBUANHOEREV, CORRHOES: 


以 下 联邦 州 未 找到 ll 1500000-2000000 
十 


m 0-500000 


g $ - Piot 选项 ES 4 


DataFrame 的 一 个 重要 优势 是 ， 信 息 像 表格 一 样 被 结构 化 。 因 此 ， 无 论 是 使 用 笔记 本 还 是 你 偏爱 的 Bl (商业 智能 Business 
Intelligent) 工具 ， 都 可 以 快速 可 秽 化 数据 。 


Q 你 可 以 在 http://bit.ly/2bkUGnT 中 找到 完整 的 pyspark.sql.DataFrame 方 法 列表 。 在 http://bit.ly/2bTAzLT 中 找到 完整 的 


pyspatk.sql.functions 列 表 。 


3.11 小 \ 结 


使 用 Spark DataFrame，Python 开 友人 员 可 以 利用 一 个 简单 的 并 且 潜 在 地 加 快速 度 的 抽象 层 。 最 初 Spark 中 的 Python 速 度 较 
慢 的 一 个 主要 原因 源 自 于 Python 子 进程 和 JVM 之 间 的 通信 和 层 。 对 于 Python DataFrame 的 用 户 ， 我 们 有 一 个 在 9cala DataFrame 
周围 的 Python 包装 器 ，Scala DataFrame 避 免 了 Python 子 进程 /JVM 的 通信 开销 。 通 过 我 们 在 本 章 中 回顾 的 Catalyst 优 化 器 

(Catalyst Optimizer) 和 Tungsten 项 目 (Project Tungsten) , Spark DataFrame 有 许多 性 能 增强 。 本 章 中 ， 我 们 还 回顾 了 如 
何 利用 Spark DataFrame 并 且 如 何在 准时 飞行 性 能 的 场景 下 使 用 DataFrame。 


本 章 中 ， 我 们 通过 生成 数据 或 者 利用 已 经 存在 的 数据 集 来 创建 和 处 理 了 DataFrame。 


下 一 章 中， 我 们 将 讨论 如 何 转换 和 理解 自己 的 数据 。 


第 4 草 ”准备 数据 建 模 


所 有 数据 都 是 未 经 处 理 的 ， 不 管 数 据 从 何 而 来 ， 你 可 以 认为 : 这 些 数据 来 目 你 的 同事 、 来 和 目 一 个 监控 你 的 环境 的 遥测 系统 、 


来 目 你 从 网 上 下 载 的 数据 集 或 者 其 他 的 来 源 。 直 到 你 目 己 测试 并 且 证 明了 你 的 数据 处 于 干净 过 滤 的 状态 (我们 可 以 在 1 秒 内 达到 干 
IPAS) ， 都 不 应 该 信任 这 尝 数据 ， 也 不 该 用 这 些 数据 来 建 模 。 


你 的 数据 可 以 是 重复 数据 、 未 观测 数据 和 异常 数据 (AHA) ， 可 以 有 不 存在 的 地 址 、 错 误 的 电话 号 码 和 区 号 、 不 准确 的 地 
理 坐 标 、 错 误 的 日 期 、 不 正确 的 标签 、 大 小 写字 母 混 乱 、 尾 随 空 格 以 及 许多 其 他 更 细小 的 问题 。 不 管 你 是 数据 科学 家 还 是 数据 工 
时 师 ， 你 的 工作 束 是 清理 数据 ， 这 样 你 才 可 以 建立 起 一 个 统计 或 者 机 器 学 习 的 模型 。 


如 果 没 有 友 现 上 述 问题 ， 那 么 在 技术 上 你 的 数据 集 可 以 被 视 为 干 分 的。 但是， 为 了 清理 数据 集 进行 建 模 ， 你 还 需要 检查 数据 
特征 的 分 布 并 且 确 认 它 们 符合 预定 义 的 标准 。 


作为 一 个 数据 科学 家 ， 你 可 以 预料 到 要 化 费 80% ~ 90% 的 时 间 整 理 数据 并 且 敦 悉数 据 所 有 的 特征 。 本 草 将 利用 Spark 的 功能 ， 


引导 你 完成 这 一 段 过 程 。 


4.1 ”检查 重复 数据 、 示 观测 数据 和 异 弟 数据 (AAHH) 


在 你 充分 测试 这 些 数 据 并 且 证 明 什 得 花 时 间 去 做 之 前 ， 你 不 应 该 相信 这 些 数 据 ， 也 不 应 该 使 用 它们 。 在 本 蔬 中 ， 我 们 将 向 你 
展示 如 何 处 理 重复 数据 、 未 观测 数据 以 及 异常 数据 ( 离 群 值 ) 。 


4.1.1 重复 数据 


重复 数据 是 在 数据 集中 出 现在 不 同行 ， 但 是 仔细 检查 之 后 看 起 来 相同 的 观测 数据 。 也 残 是 说 ， 如 果 你 一 行 一 行 来 看 ， 某 两 行 
(或 者 更 多 行 ) 中 的 所 有 特征 可 能 会 出 现 完 全 相同 的 值 。 


另 一 方面 ， 如 果 你 的 数据 是 由 某 种 ID 形式 来 区 分 每 条 记录 (或 者 例如 将 记录 和 特定 的 用 户 关联 ) 的 ， 那 么 最 初 看 上 去 重复 的 
可 能 不 是 重复 数据 ;有 时 系统 失败 产生 了 错误 的 ID。 在 这 种 情况 下 ， 你 需要 检查 同一 个 ID 是 否 真 的 是 一 个 重复 数据 或 者 你 需要 生 
成 一 个 新 ID 的 系统 . 


考虑 以 下 示例 : 

df = spark.createDataFrame([| 
(1, 144.5, 5.9, 33, 'M'), 
L2. 167.2, 5,45, 45, 'M'j, 
(3, 124.1. 5.2, 23, THE), 
(4, 144.5, 5.9, 33, 'M'), 
(5, 133.2, 5.7, 54, 'F'), 
L3, 124.1, 5,2, 23, IFN} 
(5, 129.2, 5.3, 42, 'M'), 


id', 'weight', 'height', 'age', 'gender!']) 


正如 你 所 见 ， 这 里 有 几 个 问题 : 


C 有 两 行 ID 等 于 3 并 且 完 全 相同 。 


. ID 为 1 和 4 的 两 行 是 一 样 的 一 一 唯一 不 同 的 是 它们 的 ID， 因 此 我 们 完全 可 以 假定 它们 是 同一 个 人 的 数据 。 
. 有 两 行 的 ID 等 于 5， 但 是 这 似乎 是 一 个 记录 问题 ， 因 为 它们 看 上 去 不 是 同一 个 人 的 数据 。 


这 是 一 个 只 有 7 行 的 非常 简单 的 数据 集 。 当 你 有 数 以 百 万 计 的 观测 数据 时 ， 你 要 做 什么 ” 通 弟 第 一 件 我 要 做 的 事 是 检查 是 否 
重复 数据 : 比较 完整 数据 集 和 运行 .distinct () 方法 后 的 数据 集 的 数量 : 


print('Count of rows: (0j'.format(df.count())) 
print('Count of distinct rows: (0]'.format(df.distinct().count())) 


从 我 们 的 DataFrame 中 返回 的 结果 是 : 


Count of rows: 7 


Count of distinct rows: 6 


如 果 这 两 个 数字 不 同 ， 你 就 会 知道 你 的 数据 集中 有 我 认为 的 完全 重复 数据 : 彼此 相同 的 行 。 我 们 可 以 通过 使 
用 .dropDuplicates (http://www.hzcourse.com/resource/readBook? 


pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 将 这 些 重复 的 行 移 除 : 
df = df.dropDuplicates() 


我 们 的 数据 集 将 如 下 所 示 (运行 df.show () ) : 


| id|weightl|height|agel|qgender | 


十 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 十 一 一 一 一 一 一 十 


| 144.5| 5.9| 33| 


| 144.5| 5.9| 33| 
| 5| 129.2| 5.3| 42| 
| 5| 133.2| 5.7| 54| 
| 
| 


167.2| 5.4| 45| 
124.1| 5.2| 23| 


二 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 十 一 一 一 十 一 一 一 一 一 一 十 


删除 了 一 行 ID 为 3 的 行 。 现 在 检查 数据 中 是 否 有 任何 和 iD 无 天 的 重复 数据 。 我 们 可 以 立马 重复 之 前 所 做 的 工作 ， 但 是 只 使 用 
1D 以 外 的 列 做 对 比 : 


print('Count of ids: (0j'.format(df.count())) 
print('Count of distinct ids: [(0]'.format( 
df .select (I 
c for c in df.columns if c 1= 'id' 
|7 digtincti).count(il)J 


) 


我 们 应 该 看 到 还 有 一 行 是 重复 数据 : 


Count of ids: 6 


Count of distinct ids: 5 


可 以 继续 使 用 .dropDuplicates (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) ， 不 过 我 们 会 加 入 subset 参 数 来 指定 只 处 理 id 以 
外 的 列 : 


df = df.dropDuplicates (subset-[ 
c for c in df.columns if c != 'id' 


]) 


subset 参 数 指示 .dropDuplicates (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 只 查找 subset 参 数 指定 的 列 ; 在 上 一 个 示 
例 中 ， 我 们 移 除了 具有 相同 weight、height、age 和 gender 的 记录 ， 而 不 是 相同 的 jd。 运行 df.show () ， 当 我 们 移 除 id=1 的 
行 ， 因 为 它 和 id=4 的 行 一 致 ， 我 们 会 得 到 以 下 更 干净 的 数据 集 : 


| id|weight|height|age|gender| 


54 | 
33 | 


45 | 
23 | 
42 | 


现在 ， 没 有 任何 一 行 是 重复 的 ， 即 没有 任何 除了 ID 以 外 的 相同 行 ， 让 我 们 检查 是 否 有 重复 的 ID。 这 一 步 要 计算 ID 的 总 数 和 ID 
的 唯一 个 数 ， 可 以 使 用 .agg (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 : 


import pyspark.sqgl.functions as fn 


df .agg ( 
fn eount( 1dr) allas( ount'y. 
fn.countDistinct('id') .alias ('distinct') 
) . Show () 


以 下 是 上 述 代码 的 输出 结果 : 


十 一 一 一 一 一 十 一 一 一 一 一 一 一 一 十 
count|distinct 
—  — 


5| 4 | 


十 一 王 一 王 一 十 一 一 一 一 一 一 一 一 十 


RETE PPP, ST ZI pyspark.sqU 3e PFA TA 869 v AC 


这 让 我 们 能 够 访问 各 种 各 样 的 函数 ， 这 里 列 出 的 函数 非常 多 。 不 过 ， 我 们 还 是 非常 鼓励 你 学 习 位 


T http:/ /spark.apache.org/docs/2.0.0/api/python/pyspatk.sql.htmlZ*module-pyspark.sql.functions $2 PySpark $4 X4% - 


接 下 来 ， 我 们 分 别 利用 .count (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 
和 .countDistinct (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 计算 DataFrame 的 行 数 和 id 的 唯一 数 。 
.alias (http:;//www.hzcourse.com/resource/readBook? 


pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 允许 我 们 对 返回 列 指定 一 个 好 记 的 名 称 。 


如 你 所 见 ， 总 共有 5 行 ， 但 是 只 有 4 个 唯一 ID。 因 为 已 经 移 除 了 所 有 的 重复 数据 ， 所 以 我 们 完全 可 以 假定 这 可 能 仅仅 是 ID 数据 
中 的 偶然 事件 ， 因 此 我 们 将 给 每 一 行 一 个 唯一 的 ID。 


df.withColumn('new id', fn.monotonically increasing id()).show() 


这 段 代 码 的 输出 结果 如 下 : 


Fl 25769803776| 


M| 171798691840 | 
M| 592705486848 | 
F|1236950581248| 
M|[1365799600128 | 
十 一 一 一 十 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


.monotonicallymonotonically increasing id () 方法 给 每 一 条 记录 提供 了 一 个 唯一 并 且 违 增 的 ID。 通 过 该 文 要 ， 如 果 你 的 
数据 放置 在 大 约 不 到 10 亿 个 分 区 中 ， 每 个 分 区 的 记录 少 于 8 亿 条 ，1D 就 能 被 保证 是 唯一 的 。 


LV 


一 提醒 : 早期 的 Spatk 版 本 中 ， 对 相同 DataFrame 的 多 条 赋值 用 .monotonically-monotonically_increasing_id () 方法 未 必 会 返回 


相同 的 ID。 不 过 这 已 经 在 Spatk 2.0 中 修正 了 。 


4.1.3 ” 离 群 值 


异常 数据 ( 离 群 值 ) 指 那些 与 样本 其 余部 分 的 分 布 显著 偏离 的 观测 数据 。 显 著 的 定义 各 不 相同 ， 但 在 最 普遍 的 形式 中 ， 如 果 
所 有 的 值 大 致 在 Q1-1.5IQR 和 Q3+1.5IQR 范 围 内 ，IQR 指 四 分 位 范围 ， 你 可 以 认为 没有 离 群 值 ，IQR 定 义 为 上 分 位 (upper- 
quartile) 和 下 分 位 (lower-quartile) 22, tBize438l7J5875 NADA (Q3) 和 第 25 个 百 分 位 (Q1) 。 


再 来 想 想 一 个 简单 的 例子 : 


df outliers = spark.createDataFrame(I 
LL, 2143.5, 5.3, 28), 
(2, 154.2, 5.5, 45), 
(3, 842.3. Suh. 9994 
(4, 144.5, 5.5, 33), 
(5, 133.2, 5.4, 54), 
(Ga LAM. 1, Del; XL. 
(7, 129,2, 5,3, 42), 


], l'id', 'weight', 'height', 'age']l) 


现在 我 们 可 以 使 用 之 前 列 出 的 定义 来 标记 离 群 值 。 


首先 ， 计 算 每 个 特征 的 上 下 截断 点 。 我 们 将 使 用 .approxQuantile (http://www.hzcourse.com/resource/readBook? 
path-/openresources/teach ebook/uncompressed/17232/OEBPS/Text/..) 方法 。 第 一 个 指定 的 参数 是 列 名 ， 第 二 个 参数 可 


以 是 0 或 1 之 间 的 其 中 一 个 数 (其 中 0.5 是 指 计算 的 中 位 数 ) 或 者 一 个 列表 (在 我 们 的 例子 中 ) ， 第 三 个 参数 指定 每 个 度量 的 一 个 可 
接受 的 错误 程度 (如 果 设 置 为 0， 就 会 计算 一 个 度量 的 准确 值 ， 但 是 这 么 做 代价 很 大 ) : 

cols = ['weight', 'height', 'age!] 

bounds = 1{} 


Lor Gol n colb: 
quantiles - df outliers.approxQuantile( 
GOL. I0.25. 0.751. 0.05 


IQR = quantiles[1] - quantiles [0] 


bounds [col] = [ 
quantiles[0] - 1.5 * IQR, 
quantiles[1] + 1.5 * IQR 
] 


界限 (bounds) 代码 字典 保存 了 每 个 特征 的 上 下 界限 : 


Out[17]: í('age': [9.0, 51.0], 
"height': [4.8999999999999995, 5,6], 


weight : [115.0, 146.849999929399997]] 


现在 用 它 来 标记 我 们 的 离 群 值 : 


outliers = df outliers.select(*['id'] + | 
( 
(df outliers[c] < bounds [c] [0] ) | 
(df outliers[c] > boundsI[cl[11) 
).alias(c + ' o') for c in cols 
1) 


outliers.show() 


这 段 代 码 生 成 以 下 的 输出 : 


+=== 十 ======== 十 ========++===== 十 


| id | weight zo height pian © | 


false|false| 
false |false| 
false| true| 
false| false|false| 
false | false| true| 
false| false|false| 
false| false|false| 


有 两 个 离 群 值 企 weight 特 征 中 ， 两 个 离 群 值 在 age 特征 中 。 到 目前 为 止 ， 你 应 该 知道 如 何 提取 这 些 离 群 值 ， 不 过 这 里 有 个 代 
码 段 ， 列 出 了 和 其 他 剩余 分 布 明 显 不 同 的 值 : 


df outliers = df outliers.join(outliers, ons'id') 
df outliers.filter('weight o').select('id', 'weight').show() 
df outliers.filter('age o').select('id', 'age').show() 


这 段 代 码 的 输出 如 下 : 


| 十 一 一 一 十 一 一 一 一 一 一 十 
| id|weight 


3| 342.3| 


+ 一 一 一 十 一 一 一 一 一 一 十 


十 一 一 一 十 一 一 一 十 
id|age| 


d 


| | EE m= 加 m. 
图 


[s 
| 


5| 54| 
3| 99 


用 


使 用 本 节 中 搞 述 的 万 法， 你 可 以 快速 清理 即便 是 最 大 的 数据 集 。 


4.2. 烈 悉 你 的 数据 


尽管 我 们 强烈 区 对 ， 但 是 你 仍然 可 以 在 不 了 解数 据 时 融 建 立 模 型 ;这样 的 行为 可 能 会 占用 你 更 长 的 时 间 ， 并 且 生 成 的 模型 质 
量 可 能 也 不 太 理 想 ， 但 是 它 是 可 行 的 。 


在 本 节 中 ， 我 们 将 使 用 从 http://packages.revolutionanalytics.com/datasets/ccFraud.csv 下 载 的 数据 集 。 我 们 不 会 政变 数据 集 
本 身 ， 但 是 它 是 用 GZipped 压 缩 并 上 传 到 http://tomdrabas.com/data/LeatrninegPySpatk/ccFraud.csv.gz 的 。 请 先 下 载 文件 并 且 和 包含 本 
章 的 笔记 本 保存 在 同一 个 文件 夹 中 。 


数据 集 的 开头 如 下 : 


"custID',"gender","state","cardholder ,"balance","numTrans","numIntlTrans","creditLine","fraudRisk" 
1,1,35,1,3000,4,14,2,0 
2,2,42,1,0,9,0,18,0 


3,2,2,1,0,27,9,16,0 
4,1,15,1,0,12,0,5,0 
5,1,46,1,0,11,16,7,0 


因此 ， 任 何 严 谨 的 数据 科学 家 或 者 数据 建 模 师 都 会 在 开始 任何 建 模 之 前 先 敦 悉数 据 集 。 第 一 件 事 通常 是 ， 从 一 些 拍 述 性 统计 
开始 ， 找 到 我 们 正在 处 理 的 问题 的 感 党 。 


4.2.2 相关 性 


特征 之 间 相 互 关 系 的 另 一 个 非常 有 用 的 度量 是 相关 性 。 你 的 模型 通常 只 包括 那些 与 你 的 目标 高 度 相关 的 特征 。 然 而 ， 检 查 特 
征 之 间 的 相关 性 几乎 是 同样 重要 的 ,包括 它们 之 间 高 度 相关 的 特征 ( 即 共性 (collinear) ) ， 可 能 会 导致 模型 的 不 可 预知 行为 或 
者 可 能 进行 不 必要 地 复杂 化 。 


> “在 我 的 Practical Data Analysis Cookbook, Packt Publishing 中 ， 更 多 地 谈论 到 了 多 重 共 线性 (multicollineatity ) 
(https:/ /www.packtpub.com/big-data-and-business-intelligence/practical-data-analysis-cookbook) ， 第 5 章 Identifying and tackling 


multicollinearity 节 。 


只 要 你 的 数据 是 DataFrame 形 式 ， 运 用 PySpark 计 算 相关 性 非常 容易 。 唯 一 的 困难 是 ， 这 
时 .corr (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 支持 Pearson 相 关 性 系数 ， 并 且 只 能 计算 两 
两 相关 性 ， 如 以 下 : 


fraud df.corr('balance', 'numTrans!) 


73 f 8/g —"BZSOBEE, WJEMSSFHEURBUA: 


n numerical = len (numerical) 


for i in range(0, n numerical): 


temp - [None] * i 


for j in range(i, n numerical): 
temp.append(fraud df.corr(numerical[i], numericalljl)) 


corr.append(temp) 


这 段 代码 创建 的 输出 结果 如 下 : 


[[1.0, 0.00044523140172659576, 0.00027139913398184604], 


Out[30]: 
[None, 1.0, -0.0002805712819816179], 


[None, None, 1.0]] 


ERMAT, (EARRA PAE RAMENA KIEL FEFE. REGES AER JS E83 FP 58 FIBRE , 
在 解释 我 们 的 目标 方面 都 是 具有 统计 学 意义 的 。 


检查 了 相关 性 ， 现 在 可 以 继续 在 视 芝 上 检测 我 们 的 数据 了 。 


4.3 可视化 


虽然 有 多 个 可 视 化 软件 包 ， 但 是 在 这 一 节 中 ， 我 们 将 专门 使 用 matplotlib 和 Bokeh， 用 最 好 的 用 具 来 满足 你 的 需求 。 
这 两 个 包 都 预先 安装 到 了 Anaconda 中 。 首 先 让 我 们 加 载 模块 并 设置 这 两 个 包 : 


$matplotlib inline 

import matplotlib.pyplot as plt 
plt.style.use('ggplot!) 

import bokeh.charts as chrt 

from bokeh.io import output notebook 


output notebook() 


Jematplotlib inline 和 output notebook () 命令 分 别 会 使 用 matplotlib 或 者 Boken 生 成 每 个 图 表 ， 并 且 出 现在 笔记 本 而 不 


是 一 个 单独 的 窗口 中 。 


4.3.3 ”特征 之 间 的 交互 
散 点 图 (Scatter charts) 让 我 们 能 够 一 次 可 视 化 多 达 三 个 变量 之 间 的 交互 (尽管 我 们 只 在 这 一 节 中 展示 2D 交 互 ) 。 
3 除非 你 正在 处 理 一 些 时 态 数 据 ， 并 且 布 望 随 着 时 间 的 推移 观察 变化 ， 否 则 很 少 提 到 3D 可 视 化 。 即 便 如 此 ， 我 们 也 会 把 时 
间 数 据 离 散 化 ， 并 且 呈 现 出 一 系列 的 2D 图 表 ， 因 为 解释 3D 图 表 更 复杂 一 些 ， 并 且 会 令 人 困惑 〈 多 数 情况 下 ) 。 
因为 PySpark 不 提供 在 服务 器 喘 的 任何 可 视 化 模块 ， 并 且 试 图 同时 绘制 数 十 亿 的 观测 数据 是 非常 不 切实 际 的 ， 所 以 在 这 一 节 
中 ， 我 们 将 只 对 0.02% 的 数据 集 进行 采样 (大约 2000 个 观测 数据 ) 。 
3 除非 你 选择 分 层 抽样 ， 不 然 你 应 该 在 预定 义 的 抽样 率 中 创建 至 少 3 到 5 个 样本 ， 这 样 你 就 可 以 检查 样本 是 否 有 所 代表 你 的 数 
据 集 一 一 也 就 是 ， 你 的 样本 之 间 的 差异 不 大 。 


在 这 个 例子 中 ， 我 们 将 把 欺诈 数据 集 作为 一 个 阶层 抽取 0.02% 样 本 : 


data sample = fraud df.sampleBy( 
'gender', (1: 0.0002, 2: 0.0002} 


.select(numerical) 


要 在 一 行 中 放置 多 个 2D 图 表 ， 可 以 使 用 以 下 代码 : 


data multi = dict(l 
(elem, data sample.select(elem).rdd ^ 
.flatMap(lambda row: row).collect()) 
for elem in numerical 
] ) 
sctr = chrt.Scatter(data multi, xz'balance', ys'numTrans') 


chrt.show(sctr) 


这 段 代 码 产生 以 下 图 表 : 


ES 
一 


4 


模 
我 


分 


numTrans 


o 5000 10000 15000 20000 25000 
balance 


正如 你 所 见 ， 有 大 量 的 欺诈 交易 余额 为 0， 却 有 许多 交易 
金 间隔 中 出 现 的 市 状 ， 没 有 特征 的 模式 也 可 以 显示 。 


也 就是 说 ， 一 张 新 卡 但 是 有 大 量 的 交易 。 不 过 除了 一 些 在 1000 


.4 小 结 


在 本 章 中， 我 们 研究 了 如 何 通 过 识别 和 处 理 具有 缺失 值 、 重 复数 据 和 异常 数据 (AAE) 的 数据 集 ， 来 清理 和 准备 数据 建 
。 我 们 还 看 了 如 何 使 用 PySpark 的 工具 来 更 加 熟悉 你 的 数据 (虽然 这 并 非 是 一 个 天 于 如 何 分 析 你 的 数据 集 的 全 备 手册 ) 。 最 后 
们 向 你 展示 了 如 何 绘制 数据 图 表 。 


我 们 将 在 接 下 来 的 两 章 中 使 用 这 些 (更 多 ) 技术 。 在 那 两 章 中 ， 我 们 将 建立 机 器 学 习 的 模型 。 


第 5 章 ”MLlib 介 绍 


在 上 一 章 中 ， 我 们 学 习 了 如 何 准备 建 模 数 据 。 在 本 章 中 ， 我 们 将 使 用 这 些 知识 来 学 习 如 何 使 用 PyS9park 的 MLIib 包 ， 构 建 一 个 


类 模型 。 


MLlib 代 表 机 器 学 习 库 。 即 使 MLlib 现 在 处 于 维护 模式 ， 即 它 没有 被 积极 开 友 (并 且 很 可 能 在 以 后 被 弃 用 ) ， 但 我 们 保证 至 少 


会 覆盖 该 库 的 一 些 特 性 。 此 外 ，MLlib 是 目前 唯一 支持 流 媒 体 训 练 模 型 的 库 。 


g= 
CA 4 
l & N 


一 从 Spark 2.0 开 始 ，ML 是 主要 的 机 器 学 习 库 ， 它 对 DataFrame 进 行 操作 ， 而 不 像 MIlib 那 样 对 RDD 进 行 操作 。MIlib 的 文档 可 


以 在 这 里 找到 : http://spark.apache.org/docs/latest/api/python/pyspark.mllib.html o 


5.1 包 概 述 


MLlib 概 括 了 其 公开 三 个 核心 机 器 学 习 功 能 : 

数据 准备 : 特征 提取 、 变 换 、 选 择 、 分 类 特征 的 散 列 和 一 些 自然 语言 处 理 方法 。 

机 器 学 习 算 法 : 实现 了 一 些 流行 和 高 级 的 回归 ， 分 类 和 聚 类 算法 。 

- 实用 程序 : 统计 方法 ， 如 描述 性 统计 、 卡 方 检 验 、 线 性 代数 〈 稀 朴 稠 密 矩 阵 和 向 量 ) 和 模型 评估 方法 。 
如 您 所 见 ， 可 用 功能 面板 可 以 让 您 执行 几乎 所 有 的 基础 数据 科学 任务 。 


在 本 章 中 ， 我们 将 构建 两 个 分 类 模型 : 线性 回归 和 随机 森林 。 我 们 将 使 用 
从 http://www.cdc.gov/nchs/data access/vitalstatsonline.htm 下 载 的 美国 2014 年 和 2015 年 出 生 数 据 的 一 部 分 。 我 们 从 300 个 
变量 中 选择 了 85 个 特征 ， 我 们 将 使 用 它们 来 构建 我 们 的 模型 。 此 外 ， 在 忌 数 近 799 万 条 记录 中 ， 我 们 选择 了 45429 条 记录 的 平衡 样 
本 : 22080 条 婴儿 死亡 的 记录 ，23349 条 婴儿 活着 的 记录 。 


本 章 所 要 使 用 的 数据 集 可 以 从 以 下 地 址 下 载 : http://www.tomdrabas.com/data/LearningPySpark/births_train.csv.gz o 


5.3.1” 摘 述 性 统计 


我 通常 从 描述 性 统计 开始 。 昌 然 DataFrame 公 开 了 .describe () 方法 ， 但 由 于 我 们 正在 使 用 MLlib， 所 以 我 们 将 采 
取 .colStats (http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 。 


-eX 
O, v 
s 


一 注意: .colStats (http:/ /www.hzcoutse.com/resoutce/teadBook? 
path= /openresources/teach, ebook /uncomptressed/17232/O EBPS/Text/...) 是 根据 一 个 样本 来 计算 描述 性 统计 的 。 对 于 真实 世界 的 数 


据 集 ， 这 并 不 重要 ， 但 如 果 您 的 数据 集 少 于 100 个 观察 结果 ， 您 可 能 会 得 到 一 些 奇 怪 的 结果 。 


该 方法 使 用 RDD 的 数据 来 计算 MultivariatestatisticalSummary 对 象 的 摘 述 性 统计 信息 ， 并 返回 
MultivariateStatisticalSummary 对 象 ， 该 对 象 包含 如 下 描述 性 统计 信息 : 


: count () : 行 数 
: max () : 列 中 的 最 大 值 


. mean () : 列 的 所 有 值 的 平均 值 


-min () : 列 中 的 最 小 值 

. normL1 () : 列 中 值 的 L1-Norm 值 

. normL2 () : 列 中 值 的 L2-Norm 值 

. numNonzeros () : 列 中 非 零 值 的 数量 


: variance () : 列 中 值 的 方差 值 


ex 
M» 了 解 更 多 关于 L1-norm 和 L2-norm 的 信息 请 访问 http://bit.ly/2jJJPJ0。 


建议 您 查看 park 文 档 以 了 解 更 多 相 天 信息 。 以 下 是 计算 数字 特征 拍 述 性 统计 信息 的 代码 卢 段 : 


import pyspark.mllib.stat as st 
import numpy as np 
numeric cols - ['MOTHER AGE YEARS','FATHER COMBINED AGE', 
'CIG BEFORE','CIG 1 TRI','CIG 2 TRI','CIG 3 TRI', 
'MOTHER HEIGHT IN','MOTHER PRE WEIGHT', 
'MOTHER DELIVERY WEIGHT','MOTHER WEIGHT GAIN' 
] 
numeric rdd = births transformed\ 
.Select (numeric cols) 
.rYdd ^ 
.map(lambda row: [e for e in row]) 
mllib stats = st.Statistics.colStats(numeric rdd) 
for col, m, v in zip(numeric cols, 


mllib stats.mean(), 
mllib stats.variance()): 
Beart lt iD Yerle JEF VE 12:,2f]!',.fOrumab[icol, m, np.SdqQprEIY))) 


上 述 代码 产生 以 下 结果 : 


MOTHER AGE YEARS: 28.30 
FATHER COMBINED AGE: 44.55 
CIG BEFORE: 1.43 5.18 
CIG 1 TRI: 0.91 3.83 
CIG 2 TRI: 0.70 3.31 


CIG 3 TRI: 0.58 3.11 
MOTHER HEIGHT IN: 65.12 6.45 

MOTHER PRE WEIGHT: 214.50 — 210.21 

MOTHER DELIVERY WEIGHT: 223.63 . 180.01 
MOTHER WEIGHT GAIN: 30.74 26.23 


正如 你 所 看 到 的 ， 与 父 杀 相 比 ， 母 杀 年 龄 更 小 : BRERBDEISTEMSIR2OZ , MRR FIFRE MS, MFR (E 
DIFER LRR) 是 许多 母 杀 怀 孚 后 开始 戒烟 ; 而 令 人 吃惊 的 是 ， 有 些 母 杀 还 是 持续 吸烟 。 


对 于 分 类 变量 ,我 们 将 计算 其 值 的 频率 : 


categorical cols = [e for e in births transformed.columns 
if e not in numeric cols] 
categorical rdd = births transformedwN 
.Select (categorical cols) 
.rdd A 
.map (lambda row: [e for e in row]) 
for i, col in enumerate(categorical cols): 
agg = categorical rdd ^ 
.groupBy (lambda row: row[i]) \ 
.map (lambda row: (row[0], len(row[11]))) 
print (col, sorted(agg.collect(), 
key-lambda el: el[1], 


reverse-True)) 


结果 如 下 : 


INFANT ALIVE AT REPORT [(1, 23349), (0, 22080)] 
BIRTH PLACE [('1', 44558), ('4', 327), ('3', 224), ('2', 136), ('7', 91), ('5', 74), ('6', 11), ('9', 8)] 
DIABETES PRE [(0, 44881), (1, 548)] 


DIABETES GEST [(0, 43451), (1, 1978)] 

HYP TENS PRE [(0, 44348), (1, 1081)] 

HYP TENS GEST [(0, 43302), (1, 2127)] 

PREV BIRTH PRETERM [(0, 43088), (l, 2341)] 


大 部 分 的 生产 是 在 医院 里 (BIRTH PLACESET-1) 。 大 约 550 例 的 生产 是 在 家 里 : 有 些 是 计划 好 的 (BIRTH PLACESET3) , 
而 有 些 不 是 (BIRTH_PLACE 等 于 4) 。 


5.3.2 TEXTE 


相关 性 有 助 于 识别 共 线 数字 特征 并 适当 处 理 它们 。 接 下 来 我 们 检查 一 下 其 特征 之 间 的 相关 性 。 


corrs = st.Statistics.corr (numeric rdd) 
for i, el in enumerate (corrs > 0.5): 
correlated = | 
(numeric cols[jl, corrs[illjl) 
for j, e in enumerate (el) 
if e == 1.0 and j] !- 1i] 
if len(correlated) > 0: 
for e in correlated: 
print ('{0}-to-{1}: {2:.2f}' \ 
.format (numeric cols[i], e[0], e[1])) 


前 面 的 代码 将 计算 相关 性 矩阵 ， 并 且 只 打印 那些 相关 性 系数 大 于 0.5 的 特征 ， 即 corrs> 0.5 所 限制 的 部 分 。 


得 到 的 结果 如 下 : 


CIG BEFORE-to-CIG 1 TRI: 0.83 

CIG BEFORE-to-CIG 2 TRI: 0.72 

CIG BEFORE-to-CIG 3 TRI: 0.62 

CIG 1 TRI-to-CIG BEFORE: 0.83 

CIG 1 TRI-to-CIG 2 TRI: 0.87 

CIG 1 TRI-to-CIG 3 TRI: 0.76 

CIG 2 TRI-to-CIG BEFORE: 0.72 

CIG 2 TRI-to-CIG 1 TRI: 0.87 

CIG 2 TRI-to-CIG 3 TRI: 0.89 

CIG 3 TRI-to-CIG BEFORE: 0.62 

CIG 3 TRI-to-CIG 1 TRI: 0.76 

CIG 3 TRI-to-CIG 2 TRI: 0.89 

MOTHER PRE WEIGHT-to-MOTHER DELIVERY WEIGHT: 0.54 
MOTHER PRE WEIGHT-to-MOTHER WEIGHT GAIN: 0.65 
MOTHER DELIVERY WEIGHT-to-MOTHER PRE WEIGHT: 0.54 
MOTHER DELIVERY WEIGHT-to-MOTHER WEIGHT GAIN: 0.60 
MOTHER WEIGHT GAIN-to-MOTHER PRE WEIGHT: 0.65 
MOTHER WEIGHT GAIN-to-MOTHER DELIVERY WEIGHT: 0.60 


如 你 所 见 ，“CIG http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/..." 特征 是 高 度 相关 的 ， 所 以 它们 中 的 大 部 分 我 们 用 
不 到 。 由 于 我 们 要 尽快 预测 婴儿 的 生 仓 机 会 ， 所 以 我 们 只 会 保留 “CIG_1TRI”。 另 外 ， 如 预期 的 那样 ， 重 量 特征 也 是 高 度 相 天 
的 ， 我 们 只 会 保留 “MOTHER PRE WEIGHT" : 


features to keep = | 
'INFANT ALIVE AT REPORT', 
'BIRTH PLACE', 
'MOTHER AGE YEARS', 
'FATHER COMBINED AGE', 
'CIG 1 TRI', 
'MOTHER HEIGHT IN', 
'MOTHER PRE WEIGHT', 
DIABETES PRE', 
'DIABETES GEST', 
'HYP TENS PRE', 
'HYP TENS GEST', 
“PREV BIRTH PRETERM' 


births transformed = births transformed.select([e for e in features 
to keep]) 


5.4 创建 最 终 数 据 集 


因此 ， 现 在 可 以 创建 用 于 构建 我 们 的 模型 的 最 终 数 据 集 了 。 我 们 要 把 DataFrame 转 损 为 LabeledPoint 的 RDD。 
LabeledPoint 是 一 种 MLlib 的 数据 结构 ， 用 于 训练 机 器 学 习 模 型 。 它 由 两 个 属性 组 成 : 标签 和 特征 。 


标签 是 我 们 的 目标 变量 ,特征 可 以 是 NumPy 数 组 、 列 表 、pyspark.millib.linalg.SparseVector、 
pyspark.mllib.linalg.DenseVectorayscipy.sparseZlzB[, 


5.4.1 创建 LabeledPoint 形 式 的 RDD 


在 构建 最 终 数据 集 之 前 ， 首 先 需要 解决 一 个 最 后 的 障碍 : "BIRTH PLACE” 特 征 仍然 是 一 个 字符 串 。 其 他 分 类 变量 都 可 以 直 
接 使 用 (因为 它们 现在 是 虚拟 变量 ) ， 故 我 们 将 使 用 散 列 技巧 来 编码 “BIRTH PLACE” 特 征 : 


import pyspark.mllib.feature as ft 
import pyspark.mllib.regression as reg 
hashing - ft.HashingTF (7) 
births hashed = births transformed V 
.rdd ^ 
.map (lambda row: | 
list(hashing.transform(row[1]).toArray()) 
if col == 'BIRTH PLACE: 
else rowl[i] 
for i, col 
in enumerate (features to keep)]l) \ 
.map(lambda row: [[e] if type(e) -- int else e 
for e in row]) \ 
.map(lambda row: [item for sublist in row 
for item in sublist]) \ 
.map (lambda row: reg.LabeledPoint( 
row[0], 


l1ln.Vectors.dense(row[1:1)) 


Am, Sxí[]8UEERE TOES, DZJIRÁ BS REFER GT 350, BEA SS RSS TSMPERHRARBISIZERU ERE. $E IK, BERAE 
使 用 该 模型 将 “BIRTH_PLACE” 特 征 转换 为 SparseVector。 如 果 您 的 数据 集 有 许多 列 ， 但 是 在 一 行 中 只 有 少数 数据 具有 非 零 值 ， 
则 这 种 数据 结构 是 首选 的 。 然 后 ， 我 们 将 所 有 特征 结合 在 一 起 ， 最 终 创 建 一 个 LabeledPoint。 


和 测试 数 据 


5.4.2 ”分隔 培 计 


在 进入 建 模 阶段 之 前 ， 我 们 需要 将 数据 集 分 为 两 组 : 一 组 用 于 培训 ， 另 一 组 用 于 测试 。 笠 运 的 是 ，RDD 有 一 个 方便 的 方法 用 
于 处 理 该 情况 : .randomSplit (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/..) 。 该 方法 的 参数 是 随机 分 判 数 据 集 的 比例 列表 。 


如 何 使 用 示例 如 下 : 


births train, births test = births hashed.randomSplit([0.6, 0.4]) 


完事 ! BUXEJOUAATB)ER, 


5.5 MWAI LEFI 


我 们 终于 可 以 开始 预测 婴儿 的 生存 机 会 了 。 在 本 节 中 ， 我 们 将 构建 两 个 模型 : 线性 分 类 器 (linear classifier) 一 一 逻辑 回 
腿 ， 和 非 线性 分 类 器 (non-linear classifier) 一 一 随机 和 森林。 对 于 前 者 ， 我 们 使 用 所 有 特征 来 做 处 理 ， 而 对 于 后 者 ， 我 们 使 用 
ChiSqSelector (http://www.hzcourse.com/resource/readBook? 


pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 选 出 前 四 个 特征 。 


5.5.1. MUlib 中 的 逻辑 回归 
逻辑 回归 从 某 种 程度 上 说 ， 是 构建 任何 分 类 模型 的 基准 。MLIib 过 去 使 用 随机 梯度 下 降 (SGD) 算法 来 提供 逻辑 回归 模型 的 评 
估 。 这 个 模型 已 经 在 Spark 2.0 中 被 弃 用 ， 而 使 用 LogisticRegressionWithLBFGS 模 型 。 


LogisticRegressionWithLBFGSfz 2? [sSFHLimited-memoryBroyden-Fletcher-Goldfarb-Shanno (BFGS) 优化 算法 。 这 是 
一 种 接近 于 BFGS 算 法 的 拟 牛 顿 方法 。 


一 如 果 您 擅长 数学 或 对 此 感 兴趣 ， 建 议 您 仔细 阅读 这 篇 博客 文章 ， 这 是 一 个 很 好 的 优化 算法 推演 过 


f£: http://atia42.com/blog/2014/12/undetstanding-Ibfes o 
首先 使 用 我 们 的 数据 培训 模型 : 


from pyspark.mllib.classification \ 
import LogisticRegressionWithLBFGS 

LR Model = LogisticRegressionWithLBFGS \ 
.train(births train, iterationsz10) 


训练 模型 非常 简单 : 我 们 只 需 调 用 .train (http;//www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 。 需 要 的 参数 是 市 有 LabeledPoint 的 


RDD; RANTE TARA, AZTERKA. 
先 使 用 births_train 数 据 集训 练 了 模型 ， 接 下 来 让 我 们 使 用 该 模型 来 预测 我 们 的 测试 集 的 分 类 : 


LR results = ( 
births test.map(lambda row: row.label) ^ 
.Zip(LR Model ^ 
.predict (births test 
.map(lambda row: row.features))) 
).map(lambda row: (row[0], row[1] * 1.0)) 


上 面 的 代码 段 创 建 了 一 个 RDD， 其 中 每 个 元 素 都 是 一 个 元 组 ， 第 一 个 元 泰 是 实际 的 标签 ， 第 二 个 元 素 是 模型 的 预测 。 
MLlib 提 供 了 分 类 和 回归 的 评估 指标 。 让 我 们 检查 一 下 模型 的 表现 : 


import pyspark.mllib.evaluation as ev 
LR evaluation = ev.BinaryClassificationMetrics (LR results) 
print('Area under PR: (0:.2£]' \ 
.format(LR evaluation.areaUnderPR)) 
print('Area under ROC: {0:.2f}' * 
.format(LR evaluation.areaUnderROC)) 
LR evaluation.unpersist () 


得 到 结果 如 下 : 


Area under PR: 0.85 


Area under ROC: 0.63 


模型 表现 相当 不 错 ! Precision-Recallii£z; F85?268EEdEzRSU HS RI. CEU P, Sx RI BER TRUE LA RS 
(真正 和 假 正 ) 。 而 这 种 情况 实际 上 是 一 件 好 事 ， 因 为 这 样 可 以 让 医生 对 怀孕 的 母 杀 和 婴儿 做 特别 的 关注 。 


受 试 者 工作 特性 (Receiver-Operating Characteristic) (ROC) 曲线 下 的 面积 可 以 理解 为 : 与 随机 选择 的 负 实 例 相 比 ， 模 
型 排名 几率 高 于 随机 选择 的 正 实 例 。639% 这 个 值 是 可 以 接受 的 。 


«c 


“对 这 些 指 标 信 息 感 兴趣 的 读者 ， 请 参阅 : http:/ /stats.stackexchange.com/questions/7207 /roc-vs-precision-and-recall- 


cufves 和 http:/ / gim.unmc.edu/dxtests/roc3.htm. 


5.5.2 ”只 选择 最 可 预测 的 特征 


任何 使 用 较 少 特征 来 准确 预测 类 的 模型 ， 应 始终 优 于 使 用 复杂 特征 的 模型 。MLlib 允 许 使 用 Chi-Square 选 择 器 来 选择 最 可 预 
测 的 特征 。 


如 何 使 用 参见 如 下 代码 : 


selector = ft.ChiSqSelector(4) .fit (births train) 
topFeatures train = ( 


births train.map (lambda row: row.label) \ 


.Zip(selector \ 
.transform (births train ^ 
.map(lambda row: row.features))) 


).map(lambda row: reg.LabeledPoint(row[0], row[11])) 
topFeatures test - ( 


births test.map(lambda row: row.label) \ 
.zip(selector \ 
.transform (births test \ 


.map (lambda row: row.features))) 
) .map (lambda row: reg.LabeledPoint(row[0], row[1])) 


我 们 要 求 选择 器 从 数据 集 返 回 四 个 最 具 预 测 性 的 特征 ， 并 使 用 births_train 数 据 集训 | 练 选择 器 。 然 后 ， 我 们 使 用 该 模型 从 训练 
和 测试 的 数据 集中 仅仅 提取 这 综 特 征 。 


.ChiSqSelector (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 只 能 用 于 数字 特征 ; 在 使 用 选择 器 之 前 ， 分 
类 变量 需要 进行 散 列 或 伪 编 码 。 


5.6 小结 


在 本 草 中 ， 我 们 浏览 了 PySpark 的 MLlib 软 件 包 的 功能 。 时 然 该 软件 包 目 前 处 于 维护 模式 ， 并 且 疫 有 被 积极 地 推进 ， 但 了 解 如 
何 使 用 仍然 是 有 益处 的 。 而 且 它 是 目前 唯一 提供 用 流 数 据 训 练 模型 的 软件 包 。 我 们 使 用 了 MLlib 来 清理 、 转 换 和 敦 悉 轰 儿 死亡 数据 
集 。 使 用 这 些 知 识 ， 我们 成 功 地 建 六 了 两 个 模型 ， 吕 在 根据 其 母 杀 、 父 杀 和 出 生地 点 的 信息 来 预测 凤 儿 生存 的 机 会 。 


在 下 一 章 中 ， 我 们 将 重新 讨论 相同 的 问题 ， 但 是 使 用 当前 Spark 推 荐 的 新 的 机 器 学 习 包 。 


Hom ”ML 包 介 绍 


在 上 一 章 中 ， 我 们 使 用 了 spark 中 的 MLlib 软 件 包 ， 该 软件 包 的 操作 是 基于 RDD 的 。 在 本 章 中 ， 我 们 将 转 到 3park 的 ML 软件 


包 ， 其 操作 基于 DataFrame。 此 外 ， 根 据 Spark 文 档 ，Spark 主 要 的 机 器 学 习 API 现 在 是 基于 DataFrame 的 一 组 模型 ， 它 们 包含 在 
spark.m| 包 中 。 


让 我 们 开始 吧 ! 


> 
-e v 
©、 
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-一 在 本 章 中 ， 我 们 将 重用 上 一 章 中 曾 使 用 过 的 数据 集 的 其 中 一 部 分 。 数 据 可 从 以 下 地 址 下 


载 : http://www.tomdrabas.com/data/LearningPySpark/births transformed.csv.gz o 


6.1 包 的 概述 


在 顶层 ,该 软件 包公 开 了 三 个 主要 的 抽象 类 : 转换 器 (Transformer) 、 评 估 器 (Estimator) 和 管道 (Pipeline) 。 我 们 将 
用 一 些 简短 的 例子 来 解释 每 个 类 。 在 本 章 的 最 后 一 节 提 供 了 一 些 更 具体 的 模型 例子 。 


6.1.2 评估 器 


评估 器 可 以 被 视 为 需要 评估 的 统计 模型 ， 对 你 的 观测 对 象 做 预测 或 分 类 。 


如 果 从 抽象 的 评估 器 类 派生 ， 新 模型 必须 实现 .fit (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 ， 该 万 法 用 给 出 的 在 DataFrame 中 找到 的 
数据 和 某 些 默认 或 目 定 义 的 参数 来 拟 合 模型 


在 PySpark 中 有 很 多 评估 器 可 用 ， 现 在 我 们 将 简要 介绍 Spark 2.0 中 提供 的 模型 。 


Ne 长 
分 类 


ML 包 为 数据 科学 家 提供 了 七 种 分 类 (Classification) 模型 以 供 选 择 ， 范 围 敌 蔓 了 从 最 简单 的 (如 人 逻辑 回归 ) 到 更 复杂 的 。 我 
们 将 在 以 下 章节 中 提供 简短 的 描述 


: LogisticRegression: 分 类 的 基准 模型 。 逻 辑 回归 使 用 一 个 对 数 函 数 来 计算 属于 特定 类 别 的 观察 对 象 的 概率 。 撰 写本 文 
Hr, PySpark ML 仅 支 持 二 值 分 类 问题 。 


: DecisionTreeClassifier: 该 分 类 器 构建 了 一 个 决策 树 来 预测 一 个 观察 对 象 的 所 属 类 别 。 指 定 maxDepth 参 数 限 制 树 的 深 
度 ，minInstancePetNode 确 定 需要 进一步 拆 分 的 树 节 点 的 观察 对 象 的 最 小 数量 ，maxBins 参 数 指定 连续 变量 将 被 分 割 的 Bin 的 最 大 数 


量 ， 而 imputity 指 定 用 于 测量 并 计算 来 自分 割 的 信息 的 度量 。 


: GBTClassifier: 用 于 分 类 的 梯度 提升 决策 树 模 型 。 该 模型 属于 集合 模型 家 族 : 集合 模型 结合 多 个 弱 预 测 模 型 而 形成 一 个 强健 


的 模型 。 目 前 ，GBTClassifiet 模 型 支持 二 进 制 标签 、 连 续 特 征 和 分 类 特征 。 


: RandomForestClassifier: 该 模型 产生 多 个 决策 树 (因此 命名 为 森林 ) ， 并 使 用 模式 输出 的 决策 树 来 对 观察 对 象 进行 分 类 。 


RandomForestClassifier 支 持 二 元 标签 和 多 项 标签 。 


: NaiveBayes: 基于 贝 叶 斯 定理 ， 该 模型 使 用 条 件 概 率 理论 对 观测 进行 分 类 。PySpatk ML 中 的 NaiveBayes 模 型 支持 二 元 标签 和 


多 项 标签。 


: MulülayerPerceptronClassifier (多 层 感知 器 分 类 器 ) : 模仿 人 类 大 脑 本 质 的 分 类 器 。 深 深 植 根 于 人 造 神经 网 络 理论 ， 该 模型 
是 一 个 黑 盒 模 型 ， 也 就 是 说 ， 不 容易 解释 模型 的 内 部 参数 。 该 模型 至 少 包含 三 个 完全 相连 的 人 造 神 经 元 层 〈 在 创建 模型 对 象 时 需 
要 指定 的 参数 ) : 输入 层 (需要 和 数据 集中 特征 的 数量 一 样 ) 、 多 个 隐藏 层 〈 至 少 一 个 ) 以 及 一 个 输出 层 ， 其 神经 元 数量 等 于 标 
签 中 的 类 别 数量 。 输 入 层 和 隐藏 层 中 的 所 有 神经 元 都 有 sigmoid 激 活 函 数 ， 而 输出 层 神 经 元 的 激活 函数 则 为 softmax。 


: OneVsRest:. 将 多 分 类 问题 简化 为 二 分 类 
如 果 label==2， 模 型 将 构建 一 个 逻辑 回归 ， 


型 分 别 积分 ， 具 有 最 高 概率 的 模型 获胜 。 


回归 


PySpark ML 软件 包 中 有 七 种 可 用 于 回归 (Regression) 任务 的 模型 


类 问题 。 


它 将 label==2 转 换 为 1 (所 有 剩余 的 标签 值 将 设置 为 0) ， 


例如 ， 在 多 标签 的 情况 下 ， 模 型 可 以 训练 成 多 个 二 元 逻辑 回归 模型 。 例 如 ， 


后 训练 二 元 模型 。 所 有 的 模 


。 与 分 类 一 样 ， 范 围 从 一 些 基本 的 回归 (如 强制 线性 回 


它 是 一 个 参数 化 模型 ， 假 设 其 中 一 个 特征 的 边际 效应 加 速 或 减缓 了 预 


归 ) 到 更 复杂 的 回归 
: AFISutvivalRegression: 适合 加 速 失 效 时 间 回 归 模 型 。 
期 寿命 (或 过 程 失 败 ) 。 它 非常 适用 于 具有 明确 阶段 的 过 程 。 


* Decision TreeRegressor: 


: GBTRegressor: 


: GeneralizedLinearRegression: 广义 线性 回归 是 具有 不 同 内 核 功能 


类 似 于 分 类 模型 ， 明 显 不 同 的 是 其 标签 是 


与 DecisionTreeRegressot 一 样 ， 区 别 在 于 标签 


连续 的 而 不 是 二 元 (或 多 项 ) 的 。 


的 数据 类 型 。 


(链接 功能 ) 的 线性 模型 家 族 。 与 假设 误差 项 的 常态 性 的 线 


性 回归 相反 ，GLM 人 允许 标签 具有 不 同 的 误差 项 分 布 : PySpark ML 包 的 GeneralizedLinearRegression 模 型 支持 gaussian、binomial、gamma 


和 boisson 家 族 的 误差 分 布 ， 


它们 有 许多 不 同 的 链接 功能 。 


: IsotonicRegression: 这 种 回归 拟 合 一 个 形式 自由 、 非 递减 的 行 到 数据 中 。 对 于 拟 合 有 序 递增 的 观测 数据 集 是 有 用 的 。 
- LinearRegression: 最 简单 的 回归 模型 ， 它 假设 了 特征 与 连续 标签 以 及 误差 项 的 常态 之 间 的 线性 关系 。 


: RandomForestRegressor: 


标签 。 
聚 类 是 一 系列 无 监督 的 模型 


pp phat 分 k 均 值 算法 ) : 


后 将 数据 迭代 地 分 解 为 k 个 禾 。 


ii 交 算 法 结合 


4E 
A , 


: KMeans: 著名 的 k 均 值 算法 ， 将 数据 分 成 k 个 化， 


此 质 FN 


: GaussianMixtute. (高 斯 混合 模型 ) 


大 化 对 数 似 然 函数 找到 高 斯 参数 。 


gg 由 于 维度 


25 DecisionTreeRegressor Eu GBTRegressor 2&4, Random-ForestRegressori& 


: 该 方法 使 用 具 


续 的 标签 ， 而 不 是 离散 


用 于 查找 数据 中 的 隐 合 模式 。PySpark ML 包 提 供 了 四 种 当前 最 流行 的 模型 


了 均值 聚 类 算法 和 层次 聚 类 算法 。 最 初 该 算法 将 所 有 观察 点 作为 一 个 


8:: http://minethedata.blogspot.com/2012/08/bisecting-k-means.html。 


迁 代 地 搜索 那些 使 每 个 观察 点 和 它 所 属 簇 的 质点 之 间距 离 平 方 和 最 小 的 那 


有 未 知 参 数 的 K 个 高 斯 分 布 来 剖析 数据 集 。 使 用 期 望 最 大 化 章法 ， 通 过 最 


度 所 限 和 高 斯 分 布 的 数值 问题 ， 该 模型 可 能 表现 不 住 。 


LDA: 该 模型 用 于 自然 语言 处 理应 用 程序 中 的 主题 生成 。PySpatrk ML 还 提供 了 一 个 推荐 模型 ， 但 我 们 不 会 在 这 里 描述 。 


6.1.3 E 


PySpark ML 中 管道 的 概念 用 来 表示 从 转换 到 评估 (具有 一 系列 不 同 阶段 ) Airimh, KAMNE AANA ERA 
数据 (以 DataFrame 形 式 ) 执行 必要 的 数据 加 工 (转换 ) ， 最 后 评估 统计 模型 。 


: 
C 
(SA 


一 管道 可 以 是 纯 转 换 类 型 的 ， 也 就 是 说 ， 只 由 数 个 转换 器 组 成 。 


一 个 管道 可 以 被 认为 是 由 一 系列 不 同 阶 段 组 成 的 。 在 Pipeline 对 象 上 执 
行 .fit (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/..) 方法 时 ， 所 有 阶段 按照 stages 参 数 中 指定 的 顺序 
执行 ; stages 参 数 是 转换 器 和 评估 器 对 象 的 列表 。 管 道 对 象 的 .fit (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 执行 每 个 转换 器 
的 .transform (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 和 所 有 评估 器 
的 .fit (http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 。 


通 党 ， 前 一 阶段 的 输出 会 成 为 下 一 阶段 的 输入 : 当 从 转换 器 或 评估 器 抽象 类 派生 时 ， 需 要 实现 .getOutputCol () DA, 该 
方法 返回 创建 对 象 时 指定 的 0utputCol 参 数 的 值 。 


6.2 EAMUS LETIA 


在 本 证 中 ， 我 们 将 使 用 上 一 章 的 数据 集 部 分 来 介绍 PySpark ML 的 理念 。 


"— 
GV 
Ne 


A z^ 果 在 阅 读 上 一 章 时 没有 下 载 数据 ， 可 以 访问 这 里 下 


载 : http://www.tomdrabas.com/data/LearningPySpark/births_transformed.csv. gz o 


ETAPP, XD) EEXZSRGRUUSE) UETERSS VR, 


6.2.1 加载 数 据 


首先 ， 使 用 以 下 代码 帮助 加 载 数据 : 


import pyspark.sql.types as typ 
labels = [ 
('INFANT ALIVE AT REPORT', typ.IntegerType()), 
('BIRTH PLACE', typ.StringType()), 
('MOTHER AGE YEARS', typ.IntegerType()), 
('*FATHER COMBINED AGE', typ.IntegerType()), 
('CIG BEFORE', typ.IntegerType()), 
('CIG 1 TRI', typ.IntegerType()), 
('CIG 2 TRI', typ.IntegerType()), 
('CIG 3 TRI', typ.IntegerType()), 
('MOTHER HEIGHT IN', typ.IntegerType()), 
('MOTHER PRE WEIGHT', typ.IntegerType()), 
('MOTHER DELIVERY WEIGHT', typ.IntegerType()), 
('MOTHER WEIGHT GAIN', typ.IntegerType()), 
('DIABETES PRE', typ.IntegerType()), 
('DIABETES GEST', typ.IntegerType()), 
('HYP TENS PRE', typ.IntegerType()), 
('HYP TENS GEST', typ.IntegerType()), 
('PREV BIRTH PRETERM', typ.IntegerType()) 
] 
schema = typ.StructType (| 
typ.StructField(e[O0], el[1], False) for e in labels 
] ) 
births = spark.read.csv('births transformed.csv.gz', 
header-zTrue, 
schema-schema) 


我 们 指定 DataFrame 的 schema， 严 格 限制 数据 集 只 有 17 列 。 


6.2.2 ”创建 转换 器 


在 使 用 数据 集 来 估计 模型 之 前 ， 需 要 做 一 些 转 换 。 由 于 统计 模型 只 能 对 数值 数据 做 操作 ， 因 此 我 们 必须 对 BIRTH_PLACE 变 量 
进行 编码 。 


在 做 这 些 之 前 ， 由 于 我 们 将 在 本 章 后 续 当中 使 用 一 些 不 同 的 特征 转换 ， 所 以 先 把 它们 导入 进来 : 


import pyspark.ml.feature as ft 


我 们 将 使 用 OneHotEncoder 方 法 来 对 BIRTH _PLACE 列 进行 编码 。 但 是 ， 访 方法 不 接受 StringType 列 ; 它 只 能 处 理 数字 类 
型 ， 所 以 我 们 首先 将 该 列 转换 为 IntegerType: 


births = births V 
.withColumn( 'BIRTH PLACE INT', births[ 'BIRTH PLACE' ] * 
.cast(typ.IntegerType())) 


做 完 这 项 工作 ， 现 在 可 以 开始 创建 第 一 个 转换 器 了 : 


encoder = ft.OneHotEncoder( 
inputCol zm BIRTH PLACE INT a 
outputCol-'BIRTH PLACE VEC') 


现在 我 们 来 创建 一 个 单一 的 列 ， 它 将 所 有 特征 整合 在 一 起 。 我 们 将 使 用 VectorAssembler 方 法 : 
featuresCreator = ft.VectorAssembler( 
inputCols-[ 
col[0] 
tOr SI 
in labels[2:1] + ^ 
[encoder.getOutputCol()1], 
outputCol2s'features' 


传递 给 VectorAssembler 对 象 的 InputCols 参 数 是 一 个 列表 ， 该 列表 包含 所 有 要 合并 在 一 起 以 组 成 outputCol 
一 一 “features” 的 列 。 请 注意 ， 我 们 使 用 编码 器 对 象 的 输出 (调用 .getOutputCol () 方法 ) ， 因 此 如 果 我 们 在 任何 时 候 更 改 
了 编码 器 对 象 中 输出 列 的 名 称 ， 那 么 我 们 就 不 必 更 改 此 参数 的 值 。 


现在 可 以 开始 创建 第 一 个 评估 器 了 。 


6.2.3 ”创建 一 个 评估 器 


本 例 中 ， 我 们 将 再 次 使 用 逻辑 回归 模型 。 不 过 在 本 章 的 后 续 部 分 ， 会 展示 一 些 PySpark ML 模型 中 .classification 部 分 的 更 复 


杂 模 型 ， 因 此 先导 入 这 部 分 : 
import pyspark.ml.classification as cl 
导入 后 ， 可 以 使 用 以 下 代码 创建 模型 


logistic = cl.LogisticRegression( 
maxIlIter-10, 
regParamz0.01, 
labelCol-'INFANT ALIVE AT REPORT!) 


如 果 目 标 列 的 名 称 为 “label”， 则 不 必 指 定 labelCol 参 数 。 另 外 ， 如 果 featuresCreator 的 输出 名 称 不 是 
必须 通过 在 featuresCreator 对 象 上 调用 getOutputCol () 方法 来 指定 featuresCol (这 是 最 方便 的 做 法 ) . 


"features" , BBA 


6.2.4 创建 一 个 管道 


现在 剩 下 的 工作 就 是 创建 一 个 管道 并 拟 合 模型 。 首 先 ， 从 ML 包 中 加 载 管道 
from pyspark.ml import Pipeline 


ESES. MBUS DREW PE: 


encoder — featuresCreator resCreator | ^ | logistic —— 


把 这 个 结构 转化 为 一 个 管道 很 简单 : 


pipeline = Pipeline(stages-[ 
encoder, 
featuresCreator, 
logistic 


1) 


完成 了 ! 管道 现在 创建 完了 ， 我 们 终于 可 以 评估 模型 了 


6.25 WARE 


拟 合 模型 前 ， 需 要 把 数据 集 分 成 训练 数据 集 和 测试 数据 集 。DataFrame API 提 供 了 方便 使 用 
的 .randomSplit (http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 : 
births train, births test = births \ 
.randomSplit(1[l0.7, 0.3], seed-666) 
第 一 个 参数 是 数据 集 的 比例 列表 ， 这 些 比 例 分 别 用 来 表示 births_ train 和 births test 子 集 最 终 所 占 比 例 。seed 人 参数 给 


randomizer 提 供 一 个 种 子 。 


只 要 列表 的 元 素 总 和 为 1， 也 可 以 将 数据 集 拆 分 成 两 个 以 上 的 子 集 ， 并 输出 多 个 子 集 。 


例如 ， 我 们 可 以 将 出 生 数 据 集 分 为 三 个 子 集 ， 如 下 所 示 : 


train, test, val = births.\ 
randomSplit([0.7, 0.2, 0.1], seed-666) 


上 述 代 码 随 机 将 70% 的 出 生 数 据 集 放 入 训练 对 象 中 ，20% 放 入 测试 对 象 ， 而 val DataFrame 将 保留 剩余 的 10%。 
现在 终于 可 以 运行 管道 并 评估 我 们 的 模型 了 : 


model = pipeline.fit (births train) 


test model = model.transforml(births test) 


管道 对 象 的 .fit (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 以 训练 数据 集 为 输入 。 在 方法 内 
部 ，births train 数 据 集 首先 被 传 给 encoder 对 象 。 在 encoder 阶 段 创建 的 DataFrame 将 被 传递 给 创建 “features” 列 的 
featuresCreator。 最 后 ， 此 阶段 的 输出 被 传递 给 评估 最 终 模型 的 logistic 对 象 。 


fit. (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 返回 用 于 预测 的 PipelineModel 对 销 (Ei 
代码 片段 中 的 model 对 象 ) ， 将 之 前 创建 的 测试 数据 集 传递 给 要 调用 
的 .transform (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 来 获得 预测 。test model 示 例 在 如 下 命令 
ÍTR: 


test model.take (1) 


产生 如 下 输出 : 


Out[12]: [Row(INFANT ALIVE AT REPORT-0, BIRTH PLACE-'1', MOTHER AGE YEARS-1 
3, FATHER COMBINED AGE-99, CIG BEFORE-0, CIG 1 TRI-0, CIG 2 TRI-0, 
CIG 3 TRI-0, MOTHER HEIGHT IN-66, MOTHER PRE WEIGHT-133, MOTHER DE 
LIVERY WEIGHT-135, MOTHER WEIGHT GAIN-2, DIABETES PRE-0, DIABETES 
GEST-0, HYP TENS PRE-0, HYP TENS GEST-0, PREV BIRTH PRETERM-0, BIR 


TH PLACE INT-1, BIRTH PLACE VEC-SparseVector(9, (1: 1.0)), feature 
s-SparseVector(24, (0: 13.0, 1: 99.0, 6: 66.0, 7: 133.0, 8: 135.0, 
9: 2.0, 16: 1.0)), rawPrediction-DenseVector([1.0573, -1.0573]), p 
robability-DenseVector([0.7422, 0.2578]), prediction-0.0)] 


如 你 所 见 ， 我 们 通过 转换 器 和 评估 器 得 到 了 所 有 的 列 。 逻 辑 回归 模型 输出 了 几 列 : rawPrediction 是 特征 和 系数 的 线性 组 合 
的 值 ，probability 是 为 每 个 类 别 计算 出 的 概率 ， 最 后 prediction 是 最 终 的 类 分 配 。 


6.20 评 全 异型 的 性 能 


当然 ， 我 们 想 检验 一 下 我 们 的 模型 表现 如 何 。PySpark 软 件 包 的 .evaluation 部 分 提供 了 许多 用 于 分 类 和 回归 的 评估 方法 : 


import pyspark.ml.evaluation as ev 


我 们 将 使 用 BinaryClassficationEvaluator 来 检验 模型 表现 如 何 : 


evaluator = ev.BinaryClassificationEvaluator ( 
rawPredictionCol-'probability', 
labelCol-'INFANT ALIVE AT REPORT!) 


rawpPredictionCol 可 以 是 由 评估 器 产生 的 rawPrediction 列 ， 也 可 以 是 probability。 
我 们 来 看 看 我 们 的 模型 表现 如 何 : 


print (evaluator.evaluate(test model, 


(evaluator.metricName: 'areaUnderROC'})) 
print (evaluator.evaluate(test model, 

levaluator.metricName: 'areaUnderPR'])) 
上 述 代 码 产生 如 下 结果 : 


0.7401301847095617 


0.7139354342365674 


ROC 区 域 74%， 而 PR 区 域 为 71%， 这 表明 模型 定义 民 好 ， 但 是 并 没有 什么 优越 之 处 ;如果 有 其 他 特征 ， 我 们 可 以 提高 一 下 ， 
但 是 这 不 是 本 章 的 目的 (也 非 本 书 的 目的 ) 。 


6.2.7 (APRE 


PySpark 允 许 保存 官 道 定义 以 备 以 后 使 用 。 不 仪 可 以 保存 管道 结构 ， 还 可 以 保存 所 有 转换 器 和 评估 器 的 定义 : 
pipelinePath = './infant oneHotEncoder Logistic Pipeline' 


pipeline.write().overwrite().save(pipelinePath) 


所 以 ， 你 可 以 随后 加 载 并 直接 使 用 来 .fit (http:;//www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 并 预测 : 


loadedPipeline = Pipeline.load(pipelinePath) 
loadedPipeline w 

.fit(births train) 

.transform(births test) 

.take (1) 


以 上 代码 产生 相同 结果 (如 预期 一 样 ) : 


Out[17]: [Row(INFANT ALIVE AT REPORT-0, BIRTH PLACE-'1', MOTHER AGE YEARS-1 
3, FATHER COMBINED AGE-99, CIG BEFORE-0, CIG 1 TRI-0, CIG 2 TRI-0, 
CIG 3 TRI-0, MOTHER HEIGHT IN-66, MOTHER PRE WEIGHT-133, MOTHER DE 
LIVERY WEIGHT-135, MOTHER WEIGHT GAIN-2, DIABETES PRE-0, DIABETES 


GEST-0, HYP TENS PRE-0, HYP TENS GEST-0, PREV BIRTH PRETERM-0, BIR 


TH PLACE INT-1, BIRTH PLACE VEC-SparseVector(9, (1: 1.0)), feature 
s-SparseVector(24, (0: 13.0, 1: 99.0, 6: 66.0, 7: 133.0, 8: 135.0, 
9: 2.0, 16: 1.0)), rawPrediction-DenseVector([1.0573, -1.0573]), p 
robability-DenseVector([0.7422, 0.2578]), prediction-0.0)] 


， 如 果 你 想 保 存 评估 的 模型 也 是 可 以 的 ; 此 时 你 需要 保存 PipelineModel， 而 不 是 保存 管道 


RQ 请 注意 ， 不 仅 可 以 保存 PipelineModel: 实际 上 所 有 评估 器 或 转换 器 上 调用 .fit (http://www.hzcourse.com/resource/readBook? 


path— /opentesources/teach, ebook /uncompressed/17232/OEBPS/Text/...) 方法 返回 的 模型 都 可 以 保存 ， 可 以 加 载重 用 。 
参考 以 下 示例 来 保存 模型 


from pyspark.ml import PipelineModel 


modelPath - './infant oneHotEncoder Logistic PipelineModel' 
model.write().overwrite().save(modelPath) 


loadedPipelineModel = PipelineModel.load(modelPath) 
test reloadedModel = loadedPipelineModel.transform(births test) 


以 上 代码 使 用 PipelineModel 类 的 .load (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 来 加 载 评估 的 模型 。 你 可 以 将 
test reloadedModel.take (1) 的 结果 与 之 前 提 到 的 test model.take (1) 的 输出 做 个 比较 。 


6.3 EAM 


我 们 的 第 一 个 模型 几乎 不 可 能 是 我 们 能 做 的 最 好 的 模型 。 仅 仅 只 是 查看 一 系列 指标 便 因 为 它 通 过 了 我 们 预 乞 设 定 的 性 能 国 值 
从 而 接受 模型 并 不 是 寻求 最 佳 模型 的 科学 万 法 。 


超 参 调 优 的 概念 是 找到 模型 的 最 佳 参数 : 例如 正确 估计 逻辑 回归 模型 所 需 的 最 大 进 代 次 数 或 决 案 树 的 最 大 深度 。 


在 本 节 中 ， 我 们 将 探讨 两 个 概念 ， 使 我 们 能 够 为 模型 找到 最 佳 参 数 : grid search 和 train-validation splitting, 


6.3.1 ”网 格 搜索 法 
型 ， 从 而 选择 一 个 最 佳 的 


网 格 搜索 是 一 种 详尽 的 算法 ， 根 据 给 定 评估 指标 ， 循 环 志 历 定义 的 参数 值 询 表 ， 估 计 各 个 单独 的 模型 


模型 。 

这 里 要 非常 注意 : 如 果 你 定义 的 要 优化 的 参数 太 多 或 这 些 参数 的 值 太 多 ， 则 可 能 需要 大 量 时 间 才 能 选 出 最 佳 模 型 ， 因 为 随 着 

参数 和 参数 值 的 增加 ， 要 估计 的 模型 数量 将 迅速 增长 。 

例如 ， 如 果 要 微调 两 个 参数 ， 每 个 参数 有 两 个 参数 值 ， 则 需要 拟 合 四 个 模型 。 增 加 一 个 市 有 两 个 值 的 参数 ， 需 要 评估 八 个 模 
能 会 很 


型 ， 而 给 我 们 的 前 两 个 参数 再 加 一 个 额外 的 值 (每 个 参数 有 3 个 参数 值 ) 则 需要 评估 九 个 模型 。 如 你 所 见 ， 如 果 不 小 心 ， 可 能 会 


快 融会 失控 。 请 看 下 面 的 图 表 来 直观 的 感受 一 下 : 


700 


$ 
ls to estimate 


Number of mode 


警示 之 后 ， 让 我 们 来 调整 参数 空间 。 首 先 ， 我 们 加 载 包 的 .tuning 部 分 : 


import pyspark.ml.tuning as tune 


接 下 来 ， 指 定 模 型 和 要 循环 遍历 的 参数 列表 : 


logistic = cl.LogisticRegression( 
labelCol-2'INFANT ALIVE AT REPORT! ) 
grid = tune.ParamGridBuilder() \ 
.addGrid(logistic.maxIter, 
[24 X0. S9] * 
.addGrid(logistic.regParam, 
[O- Ol. 005; Dus X 
.build() 


首先 ， 指 定 要 优化 参数 的 模型 。 接 下 来 ， 确 定 要 优化 的 参数 以 及 要 测试 的 参数 的 值 。 我 们 使 用 .tuning 子 包 中 的 
ParamGridBuilder () 对 象 ， 并 使 用 .addGrid (http://www.hzcourse.com/resource/readBook? 
path-/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 继续 将 参数 添加 到 网 格 中 : 第 一 个 参数 是 要 
优化 的 模型 的 参数 对 象 (在 本 例 中 为 logistic.maxlter 和 logistic.regParam) ， 而 第 二 个 参数 是 要 循环 的 值 的 列表 。 

在 .ParamGridBuilder 上 调用 .build () 方法 构建 网 格 。 
接 下 来 ,我 们 需要 某 种 比较 模型 的 方法 : 
evaluator = ev.BinaryClassificationEvaluator ( 
rawPredrctioncols'probability', 
labelCol-'INFANT ALIVE AT REPORT!) 


所 以 ， 我 们 再 次 使 用 BinaryClassificationEvaluator。 现 在 可 以 开始 创建 验证 逻辑 了 : 
cv = tune.CrossValidator( 
estimator-logistic, 


estimatorParamMaps-grid, 


evaluator-zevaluator 


使 用 CrossValidator 需 要 评估 器 、estimatorParamMaps 和 evaluator。 访 模型 循环 遍历 值 的 网 格 ， 评 估 各 个 模型 ， 并 使 用 


evaluator 比 较 其 性 能 。 
我 们 不 能 直接 使 用 数据 (因为 births train 和 births test 中 的 BIRTHS_PLACE 列 未 编码 ) ， 所 以 我 们 创建 一 个 只 用 于 转换 的 入 
道 : 
pipeline = Pipeline(stages-[encoder ,featuresCreator]) 
data transformer = pipeline.fit(births train) 
完成 这 一 步 后 ， 融 可 以 开始 寻找 模型 的 最 佳 参数 组 合 了 : 


cvModel = cv.fit(data transformer.transform(births train)) 


cvModel 将 返回 估计 的 最 佳 模 型 。 现 在 可 以 使 用 它 来 看 看 其 是 否 比 以 前 的 模型 更 好 : 


data train = data transformer \ 
.transform(births test) 

results - cvModel.transform(data train) 

print (evaluator .evaluate (results, 
levaluator.metricName: 'areaUnderROC'))) 

print (evaluator .evaluate (results, 
levaluator.metricName: 'areaUnderPR!'!])) 


以 上 代码 产生 如 下 结果 : 


0.7404304424804281 


0.7156729757616691 


如 你 所 见 ， 结 果 稍 微 好 一 点 。 最 佳 模 型 的 参数 都 是 什么 ? 管 案 有 操 复 杂 ， 不 过 这 里 展示 了 如 何 提取 它 : 


results = | 


( 


{key.name: paramValue! 


tor key, paramValue 
in zip( 
params.keys(í), 
params.values()) 
], metric 
) 
for params, metric 
in zipi 
cvModel.getEstimatorParamMaps () ， 


cvModel.avgMetrics 


l 


sorted (results, 
key-lambda el: ell1], 


reverse-True)l[0| 


上 面 的 代码 产生 结果 如 下 : 


6.3.2 Train-validation 划 分 


为 了 选择 最 佳 模型 ，TrainValidationSplit 模 型 对 输入 的 数据 集 (训练 数据 集 ) 执行 随机 划分 ， 划 分 成 两 个 子 集 : 较 小 的 训练 
集 和 验证 集 。 划 分 仅 执 行 一 次 。 


本 例 中 ,我 们 还 是 使 用 ChiSqSelector 只 选 出 前 五 个 特征 ， 以 此 来 限制 模型 的 复杂 度 : 


selector = ft.ChiSgSelector( 
numlioprPFeaturesz5, 
featuresCol-featuresCreator.getOutputCol(), 
outputCols2s'selectedFeatures!, 
labelCol-2'INFANT ALIVE AT REPORT! 


numTopFeatures 指 定 要 返回 的 特征 的 数量 。 把 selector 放 在 featuresCreator 的 后 面 ， 以 便 我 们 在 featuresCreator 上 调 
FH.getOutputCol () 。 


之 前 提 到 了 如 何 创建 LogisticRegression 和 和 管道， 所 以 这 里 不 再 解释 如 何 创建 它们 了 : 


logistic = cl.LogisticRegression( 
labelColz' INFANT ALIVE AT REPORT E" 
featuresCol-2'selectedFeatures'l 


) 


pipeline = Pipeline(stages-[encoder, featuresCreator, selector]) 


data transformer = pipeline.fit(births train) 
TrainValidationSplit 对 象 的 创建 方式 与 CrossValidator 模 型 相同 : 


tvs = tune.TrainValidationSplit( 
estimator-logistic, 
estimatorParamMaps-grid, 


evaluatorzevaluator 


与 之 前 一 样 ， 将 数据 拟 合 到 模型 ， 并 计算 结果 : 


tvsModel = tvs.fit(í( 
data transformer X 
 Lransrormibirtbs Erain) 
) 
data train = data transformer V 
.transform (births test) 
results = tvsModel.transform(data train) 
print (evaluator.evaluate(results, 
levaluator.metricName: 'areaUnderROC'])) 
print (evaluator.evaluate(results, 
levaluator.metricName: 'areaUnderPR'!])) 


如 上 代码 打印 如 下 输出 : 


0. 7334857800720042 


0.7071051008758281 


HA, EORR E ETRE RMR EE, (BAHAA. REER T IANA E RRE 
之 则 的 权衡 。 


6.4 ”使 用 PySpark ML 的 其 他 功能 


在 本 章 开 头 ， 摘 述 了 Pyspark ML 库 的 大 部 分 功能 。 在 本 节 中 ， 将 提供 一 些 如 何 使 用 转换 器 和 评估 器 的 示例 。 


6.4.1 ”特征 提取 


我 们 已 经 使 用 了 PySpark 这 个 子 模块 中 不 少 的 模型 。 本 节 中 ， 我 们 将 展示 如 何 使 用 最 有 用 的 (我们 所 认为 的 ) 模型 。 
NLP 相关 特征 提取 
如 前 所 述 ，NGram 模 型 采用 标记 文本 的 列表 ， 并 生成 单词 对 (或 n-gram) 。 
本 例 中 ， 我 们 从 PySpark 的 文档 中 摘录 一 段 ， 并 介绍 如 何在 将 文本 传递 给 NGram 模 型 之 前 进行 清理 。 数 据 集 如 下 (为 了 简洁 
只 写 了 简短 一 部 分 ) : 
Q 如 下 代码 完整 版 请 从 我 们 的 Github 库 下 载 代 码 : https://github.com/drabastomek/learningPySpatk。 我 们 从 管道 中 DataFrame 用 
法 描述 里 面 复制 了 这 四 个 段落 : http://spark.apache.org/docs/latest/ml-pipeline.html#dataframe - 


text data = spark.createDataFrame(| 
['''Machine learning can be applied to a wide variety 
of data types, such as vectors, text, images, and 
structured data. This API adopts the DataFrame from 


Spark SQL in order to support a variety of data 


types.'''], 

TEES 

['''Columns in a DataFrame are named. The code examples 
below use names such as "text," "features," and 
| 


], l['input']) 


在 单列 的 DataFrame 中 ， 每 一 行 只 是 一 堆 文 本 。 首 先 ， 需 要 对 文本 进行 标记 。 为 了 做 到 这 一 点 ， 将 使 用 RegexTokenizer 而 
不 仅 是 Tokenizer， 以 便 可 以 指定 拆 分 文本 的 模式 : 


tokenizer = ft.RegexTokenizer( 
TIHnDUECOI-:nDHUE!, 
outputCols'input arr', 


pattern-'Ns«|[,.N"] ') 


该 模式 会 将 文本 在 所 有 的 空格 处 分 隔 ， 而 且 还 会 删除 逗号 、 句 号 、 反 和 斜 杠 和 引号 。tokenizer 的 一 行 输出 类 似 如 下 : 


Out[35]: [Row(input arr-['machine', 'learning', 'can', 'be', 'applied', 
'; a', 'wide', 'variety', 'of', 'data', 'types', 'such', 'as', 
ectors', 'text', 'images', 'and', 'structured', 'data', 'this', 


pi', 'adopts', 'the', 'dataframe', 'from', 'spark', 'sql', 'in', 
order', 'to', 'support', 'a', 'variety', 'of', 'data', 'types'])] 


如 你 所 见 ，RegexTokenizer 不 仅 将 句子 分 割 成 单词 ， 而 且 还 使 文本 变 得 规 汉化 ， 每 个 单词 都 是 小 写 的 。 


然而 ， 我 们 的 文本 中 仍然 有 很 多 垃圾 内 容 : 如 be、a 或 通常 分 析 文 本 时 对 我 们 无 用 的 词 。 因 此 ， 我 们 会 使 用 
StopWordsRemover (http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 来 删除 这 些 所 谓 的 stopword: 


stopwords = ft.StopWordsRemover( 
inputColstokenizer.getOutputCol(), 
outputCols'input stop!) 


该 方法 的 输出 类 似 如 下 内 容 : 


Out[37]: [Row(input stop-['machine', 'learning', 'applied', 'wide', 'variet 
y, data', 'types', 'vectors', 'text', 'images', 'structured', 'd 


ata', 'api', 'adopts', 'dataframe', 'spark', 'sql', 'order', 'supp 
ort', 'variety', 'data', 'types'])] 


现在 我 们 只 剩 下 有 用 的 单词 。 所 以 ， 我 们 来 构建 NGram 模 型 和 管道 : 


ngram = ft.NGramín-2, 
inputCol-stopwords.getOutputCol(), 
outputCol-2"nGrams") 

pipeline = Pipeline(stages-[tokenizer, stopwords, ngram]) 


现在 我 们 有 了 管道 ， 可 以 遵从 与 之 前 类 似 的 方式 来 使 用 
data ngram = pipeline \ 
.fit(text data) ^ 


.transform(text data) 


data ngram.select('nGrams').take(1) 


以 上 代码 产生 如 下 输出 : 


Out[39]: [Row(nGrams-['machine learning', 'learning applied', 'applied wide 
', Wide variety', 'variety data', 'data types', 'types vectors', 
'vectors text', 'text images', 'images structured', 'structured da 


ta', 'data api', 'api adopts', 'adopts dataframe', 'dataframe spar 
k', Spark sql', 'sql order', 'order support', 'support variety', 
'variety data', 'data types'])] 


处 理 完 毕 。 我 们 得 到 了 n-grams， 现 在 可 以 在 进一步 的 NLP 处 理 中 使 用 它们 了 。 


我 们 弟弟 需要 处 理 高 度 非 线性 的 连续 特征 ， 很 难 只 用 一 个 系数 来 供给 模型 。 

这 种 情况 下 ， 可 能 难以 用 一 个 系数 来 解释 这 样 的 特征 与 目标 之 间 的 关系。 有 时 候 ， 将 值 划分 成 分 级 类 别 是 很 有 用 的 。 
首先 ， 使 用 以 下 代码 帮助 创建 一 些 假 数据 : 

import numpy as np 

x = np.arange(0, 100) 

x -x/ 100.0 * np.pi * 4 

y = x * np.sin(x / 1.764) + 20.1234 


现在 ， 使 用 以 下 代码 创建 一 个 DataFrame: 


schema = typ.StructType(I 
typ.StructField('continuous var', 
typ.DoubleType(), 

False 


]) 
data - spark.createDataFrame( 
[[£loat(e), ] for e in yl, 


schema-schema) 


0 2 4 6 8 10 12 


接 下 来 ， 将 使 用 QuantileDiscretizer 模 型 将 连续 变量 分 为 五 个 分 级 类 别 (numBuckets 参 数 ) : 


discretizer = ft.QuantileDiscretizer( 
numBuckets-5, 
inputCol-'continuous var', 


outputCol2'discretized!) 


来 看 看 我 们 得 到 了 什么 : 


14 


data discretized = discretizer.fit(data).transform(data) 


我 们 的 函数 现在 看 起 来 如 下 : 


4.0 


E Hs 


3.0 


2.5 


2.0 


1.5 


1.0 


0.5 


0.0 


0 2 4 6 8 10 12 


现在 可 以 将 此 变量 视 为 分 类 ， 并 使 用 OneHotEncoder 对 其 进行 编码 以 备 将 来 使 用 。 


标准 化 连续 变量 


标准 化 连续 变量 不 仅 有 助 于 更 好 地 理解 特征 之 间 的 关系 (因为 解释 系数 变 得 更 容易 ) ， 而 且 还 有 助 于 计算 效率 ， 并 防止 运行 


到 某 些 数字 陷阱 。 这 里 演示 了 如 何 使 用 PySpark ML 来 完成 这 个 工作 。 
首先 ， 需 要 创建 一 个 向 量 代表 连续 变量 (因为 它 只 是 一 个 float) : 


vectorizer = ft.VectorAssembler( 
inputCols-['continuous var'], 


outputCols 'continuous vec!) 


接 下 来 构建 normalizer 和 管道 。 通 过 将 withMean 和 withStd 设 置 为 True， 该 方法 将 删除 均值 并 让 方差 缩放 为 单位 长 度 : 


normalizer - ft.StandardScaler( 
inputCol-vectorizer.getOutputCol(), 
outputCol-'normalized', 
withMean-s-True, 
withStd-True 

) 


pipeline = Pipeline (stages=[vectorizer, normalizer]) 
data standardized = pipeline.fit(data).transform(data) 


转换 后 的 数据 如 下 所 示 : 


30 


25 


15 


10 


= 
0 2 4 6 8 10 12 14 


如 你 所 见 ， 数 据 现 在 以 单位 方差 ( 绿 线 ) 振荡 在 0 左右 。 


到 目前 为 止 ， 我 们 只 使 用 了 来 自 PySpark ML 的 LogisticRegression 模 型 。 在 本 节 中 ， 将 再 次 使 用 RandomForestClassfier 来 
模拟 婴儿 的 生存 机 会 。 


不 过 在 这 之 前 ， 我 们 需要 将 label 特 征 转 化 为 DoubleType: 


import pyspark.sql.functions as func 

births = births.withColumn( 
'INFANT ALIVE AT REPORT', 
func.col('INFANT ALIVE AT REPORT').cast(typ.DoubleType()) 


) 
births train, births test = births \ 
.randomSplit([0.7, 0.3], seed-666) 


现在 已 经 将 label 转 换 成 了 double， 可 以 开始 构建 模型 。 处 理 方式 与 之 前 类 似 ， 区 别 在 于 我 们 将 重用 本 章 前 面 的 encoder 和 
featureCreator。numTrees 参 数据 定 我 们 的 随机 林 中 应 访 有 多 少 个 决策 树 ，maxDepth 参 数 限 制 树 的 深度 : 


classifier = cl.RandomForestClassifier( 
numireesz5, 
maxDepthz5, 
labelCol-'INFANT ALIVE AT REPORT!) 
pipeline - Pipeline( 
stages-[ 
encoder, 
featuresCreator, 
classifier]) 
model = pipeline.fit(births train) 
test - model.transform(births test) 


现在 来 看 看 与 LogisticRegression 相 比 ，RandomForestClassifier 模 型 表现 如 何 : 


evaluator = ev.BinaryClassificationEvaluator( 
labelCol-'INFANT ALIVE AT REPORT') 
print (evaluator.evaluate(test, 


levaluator.metricName: "areaUnderROC"])) 
print (evaluator.evaluate(test, 

(levaluator.metricName: "areaUnderPR"j)) 
得 到 结果 如 下 : 


0.7736428008521183 


0.7415879154340478 


那么 ， 如 你 所 见 ， 结 果 比 逻辑 回归 模型 要 好 大 约 3 个 百分点 。 我 们 来 测试 用 一 个 树 的 模型 表现 如 何 : 


classifier - cl.DecisionTreeClassifier( 
maxDepth-5, 
labelCol-'INFANT ALIVE AT REPORT!) 
pipeline = Pipeline(stages-[ 
encoder, 
featuresCreator, 
classifier]) 
model - pipeline.fit(births train) 
test = model.transform(births test) 
evaluator - ev.BinaryClassificationEvaluator( 
labelCol-'INFANT ALIVE AT REPORT!) 
print(evaluator.evaluate(test, 


(evaluator.metricName: "areaUnderROC"])) 
print(evaluator.evaluate(test, 

levaluator.metricName: "areaUnderPR"])) 
以 上 代码 产生 如 下 结 


0.7582781726635287 


0./7/8/580540115520 


ABD! 实际 上 ， 它 的 表现 比 随机 森林 模型 在 查 全 率 (precision-recall) ZX3&73 TUS BI, (XTEROC PRIKA 
差 。 那 么 谁 的 表现 胜出 已 经 显而易见 了 ! 


6.4.3 RƏ 

聚 类 是 机 器 学 习 的 另 一 个 重要 组 成 部 分 : 通常 在 现实 世界 中 ， 我 们 没有 那么 幸运 具有 目标 特征 ， 所 以 需要 回 到 一 个 无 监督 的 
学 习 汇 例 ， 来 试图 从 中 发 握 数 据 内 的 模式 。 

在 出 生 数 据 集中 查找 艇 


本 例 中 ， 我 们 将 使 用 k-means 模型 在 出 生 数 据 中 查找 相似 性 : 


import pyspark.ml.clustering as clus 
kmeans = clus.KMeans(k = 5, 
featuresCol-'features'!) 
pipeline - Pipeline(stages-[ 
assembler, 
featuresCreator, 
kmeans |] 


) 


model = pipeline.fit(births train) 


估计 模型 后 ， 我 们 来 看 看 是 否 能 找到 禾 间 的 一 些 差 寞 : 


test = model.transform(births test) 
test V 
XGroupByi'predictrion') X 
.agg (1 
“WE” 


'MOTHER HEIGHT IN': 'avg' 
!).collect() 


如 上 代码 产生 如 下 输出 : 


Out[58]: [Row(prediction-1, avg(MOTHER HEIGHT IN)=66.64658634538152, count( 
1)72249), 
Row(prediction-3, avg(MOTHER HEIGHT IN)-267.69473684210526, count( 
1)7475), 
Row(prediction-4, avg(MOTHER HEIGHT IN)-265.38934651290499, count( 


1)7-3642), 

Row(prediction-2, avg(MOTHER HEIGHT IN)-83.91154791154791, count( 
1)7407), 

Row(prediction-0, avg(MOTHER HEIGHT IN)-263.90958873491283, count( 
1)-8948)] 


族 2 中 的 MOTHER HEIGHT IN 非常 不 同 。 检 查 结 果 (在 这 里 我 们 就 不 这 么 做 了 ) 很 可 能 友 现 更 多 的 不 同 ， 并 且 能 让 我 们 更 好 
地 了 解数 据 。 


主题 挖掘 


聚 类 模型 不 仅 限 于 数字 型 数据 。 在 目 然 语言 处 理 (NLP) 领域 ,诸如 主题 提取 等 问题 也 依赖 于 聚 类 来 检测 具有 相似 主题 的 文 
档 。 我 们 将 展示 一 个 这 样 的 例子 。 


首先 创建 数据 集 。 数 据 来 自 互 联网 上 随机 选择 的 段落 : 其 中 三 个 是 处 理 目 然 和 国家 公园 的 主题 ， 其 余 三 个 履 兰 扩 术 主题 。 


532, XRSXAWINXGAAAS. RASA Gub EM X4. 


text data = spark.createDataFrame([ 
['''To make a computer do anything, you have to write a 
computer program. To write a computer program, you have 
to tell the computer, step by step, exactly what you want 
it to do. The computer then "executes" the program, 
following each step mechanically, to accomplish the end 
goal. When you are telling the computer what to do, you 
also get to choose how it's going to do it. That's where 
computer algorithms come in. The algorithm is the basic 
technique used to get the job done. Let's follow an 
example to help get an understanding of the algorithm 
concept.'''], 
rs D 
['''Australia has over 500 national parks. Over 28 
million hectares of land is designated as national 
parkland, accounting for almost four per cent of 
Australia's land areas. In addition, a further six per 
cent of Australia is protected and includes state 
forests, nature parks and conservation reserves.National 
parks are usually large areas of land that are protected 
because they have unspoilt landscapes and a diverse 
number of native plants and animals. This means that 
commercial activities such as farming are prohibited and 
human activity is strictly monitored.'''] 

], ['documents']) 


首先 ， 再 次 使 用 RegexTokenizer 和 StopWordsRemover 模 型 : 


tokenizer = ft.RegexTokenizer( 
inputCol-'documents', 
outputCols'input arr', 
pattern='\s+| [,.\"]') 

stopwords = ft.StopWordsRemover ( 
inputCol-tokenizer.getOutputCol(), 
outputCol-2'input stop!) 


接 下 来 ， 管 道中 的 是 CountVectorizer: 该 模型 计算 文档 中 的 单词 并 返回 一 个 计数 向 量 。 辣 量 长 度 等 于 所 有 文档 中 不 同 单 词 
的 忌 数 ， 可 以 在 以 下 代码 段 中 看 到 |: 


stringIndexer = ft.CountVectorizer( 


inputCol-stopwords.getOutputCol(), 


outputCol-"input indexed") 


tokenized = stopwords ^ 


„transform ( 


tokenizer\ 


.transform (text data) 


stringIndexer \ 
.£it(tokenized)^ 


.transform(tokenized)wN 


.Select ('input indexed')^ 
.take (2) 


以 上 代码 产生 如 下 输出 : 


Out[61]: 


[Row(input indexed-SparseVector(262, (2: 7.0, 6: 1.0, 8: 3.0, 10: 
3.0, 12: 3.0, 19: 1.0, 20: 1.0, 29: 1.0, 38: 1.0, 39: 2.0, 41: 2.0 
, 44: 1.0, 50: 1.0, 60: 1.0, 65: 1.0, 87: 1.0, 108: 1.0, 110: 1.0, 
112: 1.0, 114: 1.0, 116: 1.0, 139: 1.0, 149: 1.0, 150: 1.0, 162: 1 
,0, 181: 1.0, 182: 1.0, 190: 1.0, 193: 1.0, 218: 1.0, 226: 1.0, 23 
0: 1.0, 232: 1.0, 249: 1.0, 251: 1.0, 256: 1.0))), 

Row(input indexed-SparseVector(262, (20: 1.0, 21: 1.0, 22: 2.0, 3 


2: 2.0, 33: 2.0, 36: 2.0, 48: 1.0, 49: 1.0, 55: 1.0, 63: 1.0, 72: 
1,0, 73: 1.0, 77: 1.0, 83: 1.0, 88: 1.0, 90: 1.0, 93: 1.0, 102: 1. 
0, 105: 1.0, 111: 1.0, 122: 1.0, 128: 1.0, 130: 1.0, 140: 1.0, 145 
: 1.0, 146: 1.0, 170: 1.0, 173: 1.0, 195: 1.0, 196: 1.0, 202: 1.0, 
203: 1.0, 207: 1.0, 209: 1.0, 212: 1.0, 213: 1.0, 216: 1.0, 221: 1 
,0, 224: 1.0, 225: 1.0, 228: 1.0, 231: 1.0, 237: 1.0, 241: 1.0, 24 
6: 1.0, 247: 1.0, 255: 1.0, 260: 1.0)))] 


如 你 所 见 ， 文 本 中 有 262 个 不 同 的 单词 ， 而 每 个 文档 由 每 个 单词 出 现 次 数 的 计数 表示 。 


现在 可 以 开始 预测 主题 了 。 为 此 ， 我 们 将 使 用 LDA 模 型 


潜在 狄 利 克 雷 分 布 (Latent Dirichlet Allocation) 模型 : 


clustering = clus.LDA (k=2, 


optimizer-'online', 
featuresCol-stringIndexer.getOutputCol()) 


k 参 数 指定 我 们 期 待 看 到 的 主题 数量 ，optimizer 人 参数 可 以 是 “online” 或 “em” (后 者 代表 最 大 期 望 算法 ) 。 


把 这 些 拼 在 一 起 束 会 产生 到 目前 为 止 我 们 所 做 过 的 最 长 的 管道 了 : 


pipeline = ml.Pipeline (stages=| 
tokenizer, 
stopwords, 
stringIndexer, 
clustering] 


我 们 有 没有 正确 揭示 了 话题 呢 ? 那 我 们 来 看 看 吧 


topics = pipeline \ 

.fit (text data) \ 

.transform(text data) 
topics.select('topicDistribution').collect() 


我 们 得 到 的 是 : 


Out[65]: [Row(topicDistribution-DenseVector([0.0221, 0.9779])), 
Row(topicDistribution-DenseVector([0.0171, 0.9829])), 
Row(topicDistribution-DenseVector([0.0199, 0.9801])), 


Row(topicDistribution-DenseVector([0.9923, 0.0077])), 
Row(topicDistribution-DenseVector([0.9925, 0.0075])), 
Row(topicDistribution-DenseVector([0.9904, 0.0096]))] 


看 起 来 我 们 的 方法 正确 地 发 现 了 所 有 的 主题 ! 但 是 干 万 不 要 对 这 种 好 结果 习以为常 : 悲惨 的 是 ， 现 实 世 界 的 数据 很 少 会 这 样 
友好 。 


6.4.4 回归 


还 没 构建 一 个 回归 模型 ， 我 们 不 能 就 这 么 结束 关于 机 器 学 习 库 的 这 一 章节 。 
在 本 节 中 ， 我 们 将 尝试 用 给 定 的 一 些 特征 来 预测 MOTHER WEIGHT GAIN, ， 在 这 里 列 出 它们 包含 的 特征 : 


features = ['MOTHER AGE YEARS', 'MOTHER HEIGHT IN', 
'MOTHER PRE WEIGHT','DIABETES PRE', 
'DIABETES GEST','HYP TENS PRE', 
'HYP TENS GEST', 'PREV BIRTH PRETERM', 
'CIG BEFORE','CIG 1 TRI', 'CIG 2 TRI', 
'CIG 3 TRI' 


首先 ， 由 于 所 有 的 特征 都 是 数字 型 的 ， 所 以 将 它们 整理 在 一 起 ， 并 使 用 ChiSqSelector 来 仪 选择 前 六 个 最 重要 的 特征 : 


featuresCreator = ft.VectorAssembler( 
inputCols-[col for col in features[1:11l, 
outputCols2s'features' 


) 
selector = ft.ChiSqSelector( 


numTopFeatureszó, 
outputCols"selectedFeatures", 
labelCol-2'MOTHER WEIGHT GAIN' 


为 了 预测 增加 的 体重 ， 我 们 将 使 用 梯度 提升 决策 树 regressor : 


import pyspark.ml.regression as reg 
regressor - reg.GBTRegressor( 
maxIlIter-z15, 
maxDepthz3, 
labelCol-'MOTHER WEIGHT GAIN') 


最 后 ， 我 们 把 它们 一 起 放 在 一 个 管道 : 


pipeline = Pipeline (stages=| 
featuresCreator, 


selector, 


regressor]) 
weightGain = pipeline.fit(births train) 


创建 了 weightGain 模 型 后 ， 我 们 来 看 看 它 在 测试 数据 上 是 人 否 表现 民 好 : 


evaluator = ev.RegressionEvaluator( 
predictionCol-"prediction", 
labelCol-2'MOTHER WEIGHT GAIN') 


printí(evaluator.evaluate( 
weightGain.transform(births test), 


(evaluator.metricName: 'r2'j)) 


我 们 得 到 如 下 输出 : 


0.48862170400240335 


遗憾 的 是 ， 这 个 模型 没有 什么 特别 之 处 。 看 起 来 如 果 没 有 与 MOTHER WEIGHT _ GAINEA 
将 无 法 充分 解释 其 变化 。 


相 天 的 其 他 更 好 的 独立 特征 ， 我 们 


第 7 章 GraphFrames 
图 形 是 一 个 解决 数据 问题 的 有 趣 的 方法 ， 因 为 图 形 结构 对 于 解决 许多 类 型 的 数据 问题 


可 题 显得 更 直观 。 


AAAANA 


边 和 属性 这 些 数 据 问题 在 图 形 结构 的 上 下 文中 都 更 容易 理解 : 


RES 


Juliette 
Isabella 


Brooke 


" Samantha 


Hua Ping 


Motom achi Shokudo 


intaro Ramen ' 


"T m Leat 


位 置 : 


TAN 温 哥 哥 华 


例如 ， 在 社交 网 络 中 ， 它们 之 间 的 联系 。 在 餐厅 建议 中 ， 书 点 (例如 ) 涉及 位 置 、 荣 有 类 型 和 餐馆， 而 边 则 
是 它们 之 间 的 联系 (例如 ， 这 三 个 和 餐馆 位 于 温哥华 ,但 只 有 两 个 餐厅 提供 拉面 ) 
虽然 两 个 图 似乎 没有 什么 联系 ， 但 实际 上 你 可 以 根据 社交 圈 内 的 朋友 的 评论 创建 一 个 社交 网 络 + 和 餐厅 的 推荐 图 ， 如 下 图 所 


ZR: 


菜肴 类 型 ， 
拉面 
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例如 ， 如 果 lsabella 想 在 温哥华 找到 一 个 好 吃 的 拉面 餐厅 ， 通 过 她 的 朋友 的 评论 ， 她 很 有 可 能 会 选择 Kintaro Ramen, [473 
Samantha 和 Juliette 都 对 该 餐厅 有 很 好 的 评价 : 


KARAJ: 


评价 07" 
II. | Vy 


Isabella biis 评价 


Motomachi Shokudo 
X | 


Brooke 


O ai Samantha 


Hua Ping 


另 一 个 经 典 的 图 形 问 题 是 航班 数据 的 分 析 : 机 场 由 节点 表示 ， 这 些 机 场 之 间 的 航班 由 边 表示 。 此 外 ， 还 有 很 多 与 这 些 航 班 相 
关 的 属性 ， 包 括 但 不 限于 起 飞 延误 、 飞 机 类 型 和 航空 公司 : 


在 本 章 中 ， 我 们 将 使 用 GraphFrames 快 速 轻松 地 分 析 以 图 形 结构 组 织 的 航班 性 能 数据 。 因 为 我 们 使 用 图 形 结构 ， 所 以 我 们 可 
以 很 容易 地 提出 许多 不 像 表 格 结构 那么 直观 的 问题 ， 比 如 查找 结构 核心 、 使 用 PageRank 的 机 场 排名 以 及 城市 之 间 的 最 短路 径 。 
GraphFrames 利 用 DataFrame API 的 分 友和 表达 功能 简化 了 查询 并 利用 了 Apache Spark SQL 引擎 的 性 能 优化 。 


此 外 ，Python、Sscala 和 Java 可 以 通过 使 用 GraphFrames 来 进行 图 形 分 析 。 同 样 重要 的 是 ， 你 可 以 利用 现 有 的 Apache 
Spark 技 能 来 解决 图 形 问题 (除了 机 器 学 习 、 流 和 SQL 以 外 ) ， 而 不 是 转变 范式 去 学 习 一 个 新 的 框架 。 


7.1 GraphFrames 介 绍 


GraphFrames 利 用 Apache Spark DataFrame 的 强大 功能 来 支持 一 般 图 形 处 理 。 具 体 来 说 ， 点 和 边 由 DataFrame 表 示 ， 人 允 
许 我 们 存储 每 个 节点 和 边 的 任意 数据 。 昌 然 GraphFrames 与 Spark 的 GraphX 库 类 似 ， 但 他 们 之 间 有 一 些 关 键 的 区 别 ， 包 括 : 


: GraphFrames f] Jf] Y DataFrame API 的 性 能 优化 和 简单 性 。 


- 通过 使 用 DataFrame API，GraphFtames 现 在 具有 Python、Java 和 Scala 的 API。GtraphX 只 能 通过 Scala 访 问 ; 现在 所 有 的 算法 都 可 
以 在 Python 和 Java 中 使 用 。 


. 请 注意 ， 在 撰写 本 文 时 ，GrtaphFtames 使 用 Python3.x 的 话 会 有 bug， 因 此 我 们 将 使 用 Python2.x。 


在 撰写 本 书 时 ，GraphFrames 的 版 本 是 0.3。 它 可 以 作为 Spark 软 件 包 (http://spark-packages.org) 从 https://spark- 
packages.org/packages/graphframes/graphframes 上 下 载 。 


关于 GraphFrames 的 更 多 信息 ， 请 参考 Introducing GraphFrames (https://databricks.com/blog/2016/03/03/introducing- 


graphframes.html) 。 


7.2  *GraphFrames 


如 果 你 正在 Spark CL (fil&tispark-shell, pyspark, spark-sql. spark-submit) 的 环境 中 运行 你 的 程序 ， 你 可 以 使 用 -- 
packages 命 令 来 提取 、 编 译 和 执行 使 用 GraphFrames 包 所 需 的 必要 代码 。 


例如 ， 要 在 spark-shell 中 使 用 最 新 的 带 有 Spark2.0 和 Scala2.11 的 GraphFrames 软 件 包 (版 本 0.3) ， 命 令 是 : 


> $SPARK HOME/bin/spark-shell --packages graphframes:graphframes:0.3.0- 
spark2.0-s 2.11 


如 果 你 正在 使 用 notebook service (spark 的 一 个 service) ， 可 能 需要 首先 安装 该 软件 包 。 例 如 ， 以 下 部 分 显示 了 在 免费 的 
Databricks 社 区 版 本 (http://databricks.com/try-databricks) 中 安装 GraphFrames 库 的 步骤 。 


7.2.1 创建 库 


在 Databricks 中 ， 你 可 以 创建 一 个 包括 Scala/Java JAR, Python Egg 或 Maven Coordinate (包括 Spark 包 ) 的 库 。 


要 开始 创建 库 ， 请 在 Databricks 中 点 开 WorkSpace， 石 键 单 击 要 在 其 中 创建 库 的 文件 夹 (在 本 例 中 为 flights) ,选择 
Create， 然 后 单 击 Library: 


€ — C © https;//[community.cloud.databricks.com/?o-57901 $ 


ft "Create Library” 的 对 话 框 中 ， 下 拉 “Source” 并 在 列表 中 选择 “Maven Coordinate”， 如 下 图 所 示 。 


AL 


二 个 用 于 构建 和 管理 类 似 GtaphFrames 这 种 基于 Java 的 项 目的 工具 。Maven 坐 标 是 这 些 项 目 〈 或 依赖 项 或 插件 ) 的 唯 
一 标志 ， 你 可 以 使 用 它们 在 Maven 仓 库 内 快速 找到 目标 项 目 ; 例如 https://mvnrepository.com/artifact/graphframes/graphframes。 


Create Library 


New Library 
Upload Java/Scala JAR 
Upload Python Egg or PyPI 


Source v Maven Coordinate 


Install Maven Artifacts 


Coordinate | Maven Coordinate (e.g. com.databricks:spark-csv_2.10:1.0.0) 


Search Spark Packages and Maven Central 


Create Library 


从 这 里 ， 你 可 以 单 击 Search Spark Packages and Maven Central 这 个 按钮 ， 并 搜索 GraphFrames 包 。 确 保 GraphFrames 
中 的 Spark (例如 Spark 2.0) 和 Scala (例如 Scala 2.11) 的 版 本 与 Spark 和 群集 相 匹 配 。 


如 果 你 已 经 知道 GraphFrames Spark 软 件 包 的 Maven 坐 标 ， 你 也 可 以 自行 输入 。 对 于 Spark 2.0 和 9%cala 2.11， 你 可 以 在 
coordinate 这 一 栏 输 入 以 下 坐标 : 


graphframes:graphframes:0.3.0-spark2.0-s 2.11 


fpa, RadhCreate Library， 如 以 下 屏幕 截图 所 示 : 


Create Library ? à 


New Library 


Source | Maven Coordinate 


ob 


Install Maven Artifacts 


Coordinate | graphframes:graphframes:0.2.0-spark2.0-s_2.11 | 


Search Spark Packages and Maven Central 


» Advanced Options 


Create Library 


请 注意 ， 这 是 GraphFrames Spark 软 件 包 (作为 库 的 一 部 分 ) RERE R. — Exe, RETARA E 
到 你 创建 的 任何 Databricks 集 群 上 : 


graphframes-0.2.0-Spark2.0-S_2.11 2 à 


graphframes-0.2.0-spark2.0-s_2.11 | | % Delete 
Artifacts 


graphframes-0.2.0-spark2.0-s_2.11.jar 
scala-logging-api_2.11-2.1.2.jar 
scala-logging-slf4j 2.11-2.1.2 jar 
slf4j-api-1.7.7 jar 


Clusters 
国 Attach automatically to all clusters. 


Attach Name Status 


7.3 ”准备 你 的 航班 数据 集 


对 于 这 个 航班 的 示例 场景 ， 我 们 将 使 用 两 组 数据 : 


: Aitline On-Time Performance and Causes of Flight Delays: [http://bit.ly/2ccJPPM] 该 数据 集 包 含 美国 的 航空 公司 报告 的 计划 、 实 


际 的 起 飞 和 到 达 时 间 以 及 航班 延误 原因 。 数 据 由 O 人 ce of Airline Information, Bureau of Transportation Statistics (BTS) 收集 。 


: Open Flights: Airports and airline data: [http:/ /openflights.org/data.html] 此 数据 集 包 含 美 国 机 场 数 据 的 列表 ， 包 括 IATA 人 代码、 
机 场 名 称 和 机 场 位 置 。 


我 们 将 创建 两 个 DataFrame-airports 和 departureDelays， 这 将 分 别 构 成 我 们 的 GraphFrames 的 节点 和 边 。 我 们 将 使 用 
Python 创建 这 个 航班 样本 程序 。 


因为 我 们 在 示例 程序 中 使 用 了 Databricks notebook， 所 以 我 们 可 以 使 用 /databricks-datasets/location， 这 里 包含 了 许多 
示例 数据 集 。 你 也 可 以 从 以 下 链接 下 载 数据 : 


e departureDelays.csv: http://bit.ly/2ejPr8k 


e airportCodes:http://bit.ly/2ePAdKT 


在 这 个 例子 中 ， 我 们 会 创建 两 个 变量 分 别 表示 我 们 的 Airports 和 DepartureDelays 数 据 的 文件 路 径 。 然 后 我 们 将 加 载 这 些 数 据 
集 并 创建 相应 的 Spark DataFrame。 在 此 你 可 以 注意 到 ， 我 们 能 轻松 地 推断 这 两 个 文件 的 模式 (schema) : 


H Set File Paths 


tripdelaysFilePath - "/databricks-datasets/flights/departuredelays. 
Cs 
airportsnaFilePath - "/databricks-datasets/flights/airport-codes-na. 
LxkE 


# Obtain airports dataset 

# Note, this dataset is tab-delimited with a header 
airportsna = spark.read.csv(airportsnaFilePath, header-'true', 
inferSchema-'true', sep-'Nt!) 
airportsna.createOrReplaceTempView("airports na") 


# Obtain departure Delays data 

# Note, this dataset is comma-delimited with a header 
departureDelays = spark.read.csv(tripdelaysFilePath, header-'true') 
departureDelays.createOrReplaceTempView("departureDelays") 
departureDelays.cache() 


一 旦 我 们 加 载 了 departureDelays DataFrame, 我 们 可 以 把 它 加 入 缓存 以 便 用 高 效 的 方式 来 对 数据 做 一 些 额 外 的 过 渡 : 


# Available IATA codes from the departuredelays sample dataset 


tripIATA = spark.sql("select distinct iata from (select distinct 
origin as iata from departureDelays union all select distinct 
destination as iata from departureDelays) a") 


tripIATA.createOrReplaceTempView("tripIlATA") 


前 面 的 查询 允许 我 们 用 出 发 城市 IATA 代 码 (例如 Seattle='SEA'，San Franciscoz'SFO', New York JFKz'JFK'$) 构建 一 个 
没有 重复 的 列表 。 接 下 来 ， 我 们 只 需要 收集 在 于 departureDelays DataFrame 中 保留 记录 的 时 间 段 内 有 航班 起 飞 过 的 机 场 : 


# Only include airports with atleast one trip from the 

4t "departureDelays'^ dataset 

airports = spark.sqgl("select f.IATA, f.City, f.State, f.Country from 
airports na f join tripIATA t on t.IATA - f.IATA") 


airports.createOrReplaceTempView("airports") 


airports.cache() 


通过 构建 无 重复 的 起 飞机 场 代 码 的 列表 ， 我 们 可 以 构建 airports DataFrame， 它 只 包含 departureDelays 数 据 集中 存在 的 机 
场 代码 。 以 下 代码 段 生 成 了 一 个 新 的 DataFrame (departureDelays geo) ， 它 由 一 些 关 键 属性 ， 包 括 航 班 日 期 、 延 迟 、 距 离 和 
机 场 信息 (出 发 地 、 目 的 地 ) 组 成 : 


# Build ^departureDelays geo DataFrame 

# Obtain key attributes such as Date of flight, delays, distance, 

# and airport information (Origin, Destination) 

departureDelays geo = spark.sql("select cast(f.date as int) as 
tripid, cast(concat(concat(concat(concat (concat (concat (! 2014- 

concat (concat (substr (cast (f .date as string), 1, 2), '-')), 
substr(cast(f.date as string), 3, 2)), ''), substr(cast(f.date as 
sbring). 5. Zr “eth eubstricastit.dabe as sbLringl, Tr 2));. 001) 
as timestamp) as ^ localdate , cast(f.delay as int), cast(f.distance 


as int), fE -Origin as Brc, f.destination as dsL, o.city a5 clUty sro, 
d.city as city dst, o.state as state src, d.state as state dst from 
departuredelays f join airports o on o.iata - f.origin join airports d 
on d.iata - f.destination") 


# Create Temporary View and cache 
departureDelays geo.createOrReplaceTempView("departureDelays geo") 
departureDelays geo.cache() 


要 快速 浏览 这 些 数 据 ， 可 以 像 下 面 这 样 运行 show 万 法 : 


# Review the top 10 rows of the ‘departureDelays geo DataFrame 
departureDelays geo.show (10) 


» (2) Spark Jobs 


二 一 一 一 一 一 一 一 +-------------------- 十 一 一 一 一 一 + 一 一 一 一 一 一 一 一 十 一 一 一 十 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 +--------- B 
| tripid| localdate|delay|distance|src|dst| city src| city dst|state src|state dst| 
+ 一 一 一 一 一 一 一 +--------------------ł----- R-------- 二 一 一 一 十 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 R---------2-2-2-2-2-2----- + 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 * 
[1011111|2014-01-01 11:11:... 221|MSP|INL|Minneapolis|International Falls | 
[1021111|2014-01-02 11:11:... 221|MSP|INL|Minneapolis|International Falls| 
[1031111|2014-01-03 11:11:... 221|MSP|INL|Minneapolis|International Falls| 
[1041925|2014-01-04 19:25:... 221|MSP|INL|Minneapolis|International Falls | 


[1061115|2014-01-06 11:15:... 221|MSP| INL|Minneapolis|International Falls| 
[1071115|2014-01-07 11:15:... 221|MSP|INL|Minneapolis|International Falls| 
[1081115|2014-01-08 11:15:... 221|MSP| INL|Minneapolis|International Falls| 
[1091115|2014-01-09 11:15:... 221|MSP|INL|Minneapolis|International Falls| 
|1101115|2014-01-10 11:15:... 221|MSP|INL|Minneapolis|International Falls | 
[1112015|2014-01-11 20:15:... 221|MSP|INL|Minneapolis|International Falls| 
二 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 + 一 一 一 一 一 一 一 一 十 一 一 一 十 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 一 一 一 一 一 一 一 一 一 + 一 一 一 一 一 一 一 一 一 B 


only showing top 10 


7.5 TIBET 


我 们 从 一 组 简单 的 图 形 吾 询 开 始 来 了 解 般 班 的 表现 和 出 友 延 误 的 情况 。 


7.5.1 确定 机 场 和 舰 班 的 数量 


例如 ， 要 确定 机 场 和 航班 的 数量 ， 可 以 运行 以 下 命令 : 


print "Airports: $d" $ tripGraph.vertices.count () 
print "Trips: $d" $ tripGraph.edges.count() 


你 可 以 从 结果 中 看 到 ， 共 有 279 个 机 场 和 136 万 次 航班 : 


+ (2) Spark Jobs 
P Job 16 View 
b Job 17 View 


Airports: 279 
Trips: 1361141 


7.5.2 ” 确 江 这 个 数据 集中 的 最 长 征 误 时 间 
要 确定 数据 集中 航班 最 长 的 延迟 时 间 ， 你 可 以 运行 以 下 查询 ， 结 果 为 1642 分 钟 (超过 27 小 时 ! ) : 


tripGraph.edges.groupBy().max("delay") 


7.5.3 ”确定 延误 和 准点 / 早 到 航班 的 数量 对 比 


要 确定 延误 和 准点 (或 早 到 ) 航班 的 数量 对 比 ， 你 可 以 运行 以 下 查询 : 


print "On-time / Early Flights: $d" $ tripGraph.edges.filter("delay «- 
0").count() 


print "Delayed Flights: $d" $ tripGraph.edges.filter("delay > O0"). 
count () 


结果 显示 几乎 有 439% 的 航班 延误 了 ! 


v (2) Spark Jobs 


» Job 18 View (Stages: 2/2, 7 skipped) 
^ Job 19 View (Stages: 2/2, 7 skipped) 


On-time / Early Flights: 780469 
Delayed Flights: 580672 


7.5.4. 哪 一 班 从 西雅图 出 友 的 航班 最 有 可 能 出 现 重 大 延误 


进一步 挖 据 这些 数 据 ， 让 我 们 找 出 最 有 可 能 造成 重大 延误 的 从 西雅图 出 友 的 航班 。 这 可 以 通过 以 下 查询 来 实现 : 


tripGraph.edges"^ 
.filter("src = 'SEA' and delay > 0")\ 
.groupBy("src", "dst")WN 
.avg("delay")N 
.Sort (desc("avg(delay)"))^ 
. Show (5) 


从 以 下 结果 可 以 看 出 ， 从 西雅图 出 友 的 航班 出 现 延 误 的 前 五 名 城市 是 Philadelphia (PHL) . Colorado Springs (COS) 、 
Fresno (FAT) 、Long Beach (LGB) 和 和 Washington D.C (IAD) : 


^ (1) Spark Jobs 


二 一 一 一 十 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 
Isrcldst | avg (detay) | 
二 一 一 一 二 一 一 一 十 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 十 


| SEA | PHL |55.666666666666664 | 
ISEA|COS| 43.53846153846154 | 
ISEA|FAT| 43.03846153846154 | 
ISEA|LGB| 39.39705882352941 | 
| SEA | IAD | 37 . 733333333333334 | 


d ———— — — — — — 
only showing top 5 rows 


7.5.5 ”西雅图 出 友 到 哪个 州 的 航班 最 有 可 能 出 现 重 大 延误 


让 我 们 来 看 一 下 从 西雅图 出 友 到 哪个 州 的 航班 有 最 长 的 替 积 延误 ( 单 次 延误 >100 分 钟 ) 。 这 一 次 我 们 将 使 用 display 命 令 查 看 
数据 : 
4 States with the longest cumulative delays (with individual 


4 delays » 100 minutes) (origin: Seattle) 
display(tripGraph.edges.filter("src - 'SEA' and delay » 100")) 


* (2) Spark Jobs 
tripid 
3201938 
3201655 
1011950 
1021950 
1021615 
1021755 
1031950 
1031615 
1031325 
1061755 


使 用 Databricks 的 display 命 令 ， 我 们 也 可 将 这 个 表格 视图 快速 更 改 为 数据 的 地 图 视图 。 从 以 下 的 图 可 以 看 出 ， 从 西雅图 出 友 
的 航班 (本 数据 集 ) 中 累积 延迟 最 多 的 州 是 加 州 


EB 加 ~  PlotOptions..  & 


7.6 “理解 节点 的 度 


在 图 论 中 ， 节 后 的 度数 是 该 节点 周围 的 边 数 。 在 我 们 的 示例 中 ， 上 度数 是 到 节点 ( 即 机 场 ) 的 边 的 总 数 〈 即 航班 ) 。 因 此 ， 如 


city dst 
Burbank 


Orange County 


Oakland 
Oakland 
Oakland 
Oakland 
Oakland 
Oakland 
Oakland 
Oakland 


state dst 
CA 
CA 
CA 
CA 
CA 
CA 
CA 
CA 
CA 
CA 


15000-20000 
10000-15000 
5000-10000 
0-5000 

N/A 


果 我 们 从 图 中 获得 最 大 的 20 个 节操 度数 ( 按 降 序 排列 ) ， 那 么 我 们 将 从 图 中 得 到 前 20 个 最 繁忙 的 机 场 (航班 进出 的 忆 数 最 多 ) . 
这 可 以 使 用 以 下 查询 快速 得 到 |: 


display (tripGraph.degrees.sort (desc("degree")).limit(20)) 


因为 我 们 正在 使 用 display 命 令 ， 所 以 我 们 可 以 快速 查看 这 个 数据 的 条 形 图 : 


ATL DFW ORD LAX DEN AH PHX SFO LAS CLT EWR  MCO GA SLC BOS 


DTW MSP SEA JFK BWI 


下 面 我 们 来 探讨 更 多 细节 ， 这 里 是 inDegrees ( 即 到 达 该 机 场 的 航班 )》 的 前 20 名 : 


display (tripGraph.inDegrees.sort (desc("inDegree")).limit(20)) 


ATL DFW ORD LAX DEN IAH PHX SFO LAS CLT EWR MCO LGA SLC BOS DTW SEA MSP JFK BWI 


这 里 是 outDegrees ( 即 从 该 机 场 出 上 友 的 航班 ) 的 前 20 名 : 


display (tripGraph.outDegrees.sort(desc("outDegree")).limit(20)) 


b (1) Spark Jobs 


EL GL TG gJ 1108 10 101 


MCO EWR SLC LGA BOS MSP DTW SEA JFK BWI 


有 趣 的 是 ， 虽 然 前 十 名 的 机 场 (从 亚特兰大 /ATL 到 夏 洛 特 /CLT) 的 航班 到 达 和 航班 出 发 的 排名 是 相同 ， 但 接 下 来 的 10 个 机 场 
的 排名 却 是 不 同 的 〈 例 如 ， 西 雅 图 /SEA 在 航班 到 达 排名 中 排 第 17， 而 在 航班 出 友 排 名 中 排 第 18) 。 


7.7 ”确定 最 大 的 中 转机 场 


1. 理 解 机 场 节点 度 的 一 个 扩展 是 确定 最 大 的 中 转机 场 。 许 多 机 场 被 用 作 中 转 站 而 不 是 目的 地 。 一 个 简单 的 计算 万 法 是 通过 计 
算 inDegrees (到 达 该 机 场 的 航班 数量 ) /outDegrees (离开 该 机 场 的 航班 数量 ) 的 比率 。 接 近 1 的 值 可 能 表示 大 量 的 中 转 航班 ， 
而 值 <1 表 示 出 站 航班 较 多 ， 值 > 1 表示 入 站 航班 较 多 ，。 


请 注意 ， 这 是 一 个 简单 的 计算 ， 不 考虑 航班 的 定时 或 计划 ， 只 是 考虑 数据 集中 的 总 数 : 


# Calculate the inDeg (flights into the airport) and 
# outDeg (flights leaving the airport) 

inDeg - tripGraph.inDegrees 

outDeg - tripGraph.outDegrees 


4 Calculate the degreeRatio (inDeg/outDeg) 


degreeRatio = inDeg.join(outDeg, inDeg.id == outDeg.id) ^ 
.drop(outDeg.id) ^ 
.SelectExpr("id", "double(inDegree)/double(outDegree) as 


degreeRatio") V 
. cache () 


4 Join back to the 'airports' DataFrame 
4 (instead of registering temp table as above) 


transferAirports - degreeRatio.join(airports, degreeRatio.id -- 
airports.IATA) V 
.SelectExpr("id", "city", "degreeRatio") \ 


.filter("degreeRatio between 0.9 and 1.1") 


4 List out the top 10 transfer city airports 
display (transferAirports.orderBy("degreeRatio").limit(10)) 


此 查询 的 输出 是 前 十 名 中 转 城市 机 场 ( 即 枢纽 机 场 ) 的 条 形 图 : 


* (2) Spark Jobs 


degreeRatio 


Minneapolis Denver Dallas Chicago Salt Lake City Houston Phoenix Kahului, Maui ^ Honolulu, Oahu San Francisco 
city 


这 是 有 道理 的 ， 因 为 这 尝 机 场 是 航空 公司 的 主要 枢纽 (例如 ， 达 美 航空 使 用 明 尼 阿 流利 斯 和 盐湖 城 作为 枢纽 ; Frontier 使 用 
丹佛 ; 美国 航空 使 用 达拉斯 和 凤凰 城 ， 美 联 航 使 用 休斯顿 、 和 芝加哥 和 旧金山 ;夏威夷 航空 公司 以 Kahului 和 和 檀香山 为 枢纽 ) 。 


7.8 ”理解 Motif 


为 了 更 容易 理解 城市 机 场 和 航班 之 间 的 复杂 关系 ,我 们 使 用 motifs 命 令 进 一 步 挖 所 机场 (例如 节点 ) 和 航班 (也 残 是 边 ) 之 
间 的 关系 。DataFrame 结 果 中 的 列 名 通过 Motif key 给 出 。 请 注意 ，Motif 查 找 是 作为 GraphFrames 的 一 部 分 被 支持 的 新 图 形 算 
ERE. 


例如 ， 我 们 来 确定 由 旧金山 国际 机 场 (SFO) 造成 的 延误 : 


# Generate motifs 

motifs = tripGraphPrime.find("(a)-[ab]-»(b); (b)-[bc]-»(0c) ")^ 
.filter("(b.id = 'SFO') and (ab.delay » 500 or bc.delay > 500) and 

bec.tripid > ab.Lripid and bo.Lripad «e ab,triprid + 10000") 


4 Display motifs 
display (motifs) 


分 解 前 面 的 查询 ， (xX) 表示 节点 (BILA) ， 而 [xy] 表 示 边 〈 即 机 场 之 间 的 航班 ) 。 因 此 ， 为 了 确定 ?9FO 造 成 的 延误 ， 可 以 
使 用 以 下 定义 : 


` 顶点 (b) 表示 中 间 的 机 场 ( 即 SFO) ; 
- 顶点 (a) 表示 出 发 地 机 场 ( 数 据 集 内 ) ; 
- 顶点 (c) 表示 目的 地 机 场 ( 数 据 集 内 ) ; 
- 边 [ab] 表 示 (a) ( 即 出 发 地 ) 和 (b) ( 即 SFO) 之 间 的 航班 ; 
- 边 [bc] 表 示 (b) ( 即 SFO) 和 (c) ( 即 目的 地 ) 之 间 的 航班 。 
在 filter 命 令 的 声明 中 ， 我 们 提供 了 一 些 基 本 的 约束 (注意 ， 这 只 是 一 个 简单 的 航班 路 径 表 示 ) : 
: b.id='SFO' 表 示 中 间 节 点 (b) 仅 限 于 SFO 机 场 ; 
(ab.delay>500 or bc.delay>500) 表示 我 们 仅 限 于 延误 大 于 500 分 钟 的 航班 ; 
(bc.tripid>ab.tripid and bc.tripid« li=""> 


此 查询 的 输出 如 下 图 所 示 : 


» (B) Spark Jobs 


| [MsY,New Orleans,...|[1011751,-4,MSY, SFO]| [SFO0,San Francisc...|[1021507,536,SFO,...| [ JFK,New York,NY,...]| 


| [MsY,New Orleans,...| [1201725,2,MSY,SFO]| [SF0,San Francisc...|[1211508,593,SF0O,...| [JFK,New York,NY,...]| 
| [MSY, New Orleans,...|[2091725,87,MSY,SFO]| [SFO, San Francisc...|[2092110,740,SF0,...|  [MIA,Miami,FL,USA] | 
| [MsY,New Orleans,...|[2091725,87,MSY, SFO] | [SFO,San Francisc...|[2092230,636,SFO,...| [JFK,New York,NY,...]| 
| [MsY,New Orleans,...|[2121725,15,MSY, SFO] | [SFO0,San Francisc...|[2131420,504,SFO,...| [SAN, San Diego,CA... | 
| [BUR , Burbank ‚CA, USA] |[1011828,88,BUR, SFO] | [SFO0,San Francisc...|[1021507,536,SFO,...| [ JFK,New York,NY,...]| 


以 下 是 此 查询 中 简化 的 简化 子 集 ， 其 中 列 是 相应 的 Motif key: 


Loo 8 0 | 89 [| pb j| b [ c0 


IAH -> SFO (- SFO -> JFK(536) 
Houston (IAH) New York(JFK) 


[1011126] Francisco (SFO) [1021507] 


TUS -> SFO {-5) oan SFO => JFK(530) 
Tuscon (TUS) New York(JFK) 
[1011126] Francisco(SFO) [1021507] 


观察 TUS>SFO>JFK 的 航班 ， 你 会 注意 到 ， 从 Tuscon 到 旧金山 的 航班 提前 了 5 分 钟 ， 从 旧金山 飞 往 纽约 JFK 机 场 的 航班 延误 了 
536 分 钟 。 


通过 使 用 Motif 查 找 ， 你 可 以 轻松 搜索 图 形 中 的 结构 模式 。 通 过 GraphFrames， 你 可 以 使 用 DataFrame 的 强大 功能 和 速度 来 
分 友和 执行 查询 。 


7.9 使 用 PageRank 确 定 机 场 排名 


因为 GraphFrames 建 立 在 GraphX 之 上 ， 所 以 有 几 个 算法 是 我 们 可 以 立即 利用 的 。PageRank 在 Google Search Engine 中 广 
泛 使 用 ， 由 Larry Page 创 建 。 这 里 我 们 来 引用 Wikipedia 的 解释 : 


“PageRank 的 工作 原理 是 对 到 连接 页 面 的 数量 和 质量 进行 计数 ， 从 而 估计 该 页 面 的 重要 性 。 缺 省 的 假定 是 : 越 是 重要 的 网 
站 接收 到 的 其 他 网 站 的 链接 就 越 多 。 " 


虽然 上 面 的 例子 是 关于 网 页 的 ， 但 这 一 极 好 的 理念 可 以 用 于 任何 图 结构 ， 无 论 它 是 来 目 网 页 、 目 行车 站 还 是 机 场 。 并 且 
GraphFrames 的 界面 就 像 调 用 一 个 方法 一 样 简单 。GraphFrames.PageRank 将 把 PageRank 结 果 作 为 新 的 column 仍 加 到 
DataFrame 的 节点 中 来 使 我 们 后 续 的 分 析 更 加 简单 。 


由 于 本 数据 集中 包含 的 各 机 场 有 很 多 航班 和 连接 ， 我 们 可 以 使 用 PageRank 算 法 使 Spark 达 代 地 遍历 图 形 ， 以 计算 出 每 个 机 场 
重要 性 的 粗略 估计 值 : 


4 Determining Airport ranking of importance using 'pageRank' 
ranks = tripGraph.pageRank(resetProbability-0.15, maxIter-5) 


4 Display the pageRank output 
display(ranks.vertices.orderBy(ranks.vertices.pagerank.desc()). 
1i1mTtE T4207) 
请 注意 ，resetProbability=0.15 表 示 复 位 到 随机 节点 的 概率 (这 是 默认 值 ) ， 而 maxlter= 5 是 设 定 的 迭代 次 数 。 
Lp XPageRank 2-Z( 84 Æ £428, 3532 |] Wikipedia» PageRank (https://en.wikipedia.org/wiki/PageRank) o 


PageRank 的 结果 展现 在 下 面 的 条 形 图 中 : 


r (6) Spark Jobs 
11 


10 
9 
B 
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ATL DFW ORD DEN LAX IAH SFO SLC PHX LAS 


在 机 场 排名 方面 ，PageRank 算 法 已 经 确定 ATL (Hartsfield-Jackson Atlanta International Airport) 是 美国 最 重要 的 机 
场 。 这 个 观察 结果 是 有 道理 的 ， 因 为 ATL 不 仅 是 美国 最 繁忙 的 机 场 (http://bit.|y/2eTGHs4) ， 而 且 也 是 世界 上 最 繁忙 的 机 场 
(2000~ 2015) (http://bit.ly/2eTGDsy) 。 


7.10 ”确定 最 受 欢 J 迎 的 直 飞 航班 


扩展 我 们 的 tripGraph GraphFrame， 以 下 查询 将 使 我 们 能 够 找 出 美国 最 受 欢 迎 的 直 飞 航班 (对 于 此 数据 集 ) : 


# Determine the most popular non-stop flights 
import pyspark.sql.functions as func 
topTrips = tripGraph \ 
.edges \ 
.groupBy("src", "dst") \ 
.agg(func.count("delay").alias("trips")) 


4 Show the top 20 most popular flights (single city hops) 
display(topTrips.orderBy(topTrips.trips.desc()).limit (20)) 


请 注意 ， 当 我 们 使 用 delay 这 一 列 时 ， 实 际 上 我 们 只 是 计算 出 航班 的 数量 。 以 下 是 输出 : 


* (1) Spark Jobs 


3,500 


3,000 


2,500 

2,000 

1,500 

1,000 
5 

0 


LAX, SFO SFO,LAX LAX,LAS LAS,LAX LAX,JFK  JFK,LAX LGA,ATIL ATL,LGA  PHX,LAX LAX, PHX 


从 这 个 查询 可 以 看 出 ， 直 达 航 班 中 最 频繁 的 是 LAX (洛杉矶 ) 和 SFO (旧金山 ) 之 间 。 这 些 般 班 如 此 频繁 的 事实 上 表明 了 它 
们 在 航空 市 场 上 的 重要 性 。 如 “纽约 时 报 ”2016 年 4 月 4 日 的 文章 《Alaska Air Sees Virgin America as Key to West Coast) 
(http://nyti.ms/2ea1uZR) 所 述 ， 在 这 两 个 机 场 获得 机 位 是 阿拉 斯 加 航空 公司 收购 Virgin 般 空 公司 的 原因 。 图 表 不 仅仅 是 有 趣 
的 ,而 且 还 包含 着 强大 的 潜在 商业 洞察 力 ! 


7.11 (EA ERRAR 


广度 优先 搜索 (BFS) 是 一 种 新 的 算法 ， 它 作为 GraphFrames 的 一 部 分 ， 可 以 找 出 从 一 组 节点 到 另 一 组 节点 的 最 短路 径 。 在 
本 书 中 ， 我 们 将 使 用 BFS 遍 历 tripGraph 命 令 来 快速 找到 所 需 的 节点 〈 即 机 场 ) 和 边 ( 即 航 班 》。 让 我 们 来 尝试 根据 数据 集 找到 城 
市 之 间 最 短 的 连接 数 。 请 注意 ， 这 些 例子 不 考虑 时 间或 距离 ， 只 是 在 城市 之 间 跳 来 跳 去 。 例 如 ， 要 查找 西雅图 和 旧金山 之 间 的 直 
达 航 班 数 量 ， 你 可 以 运行 以 下 查询 : 


# Obtain list of direct flights between SEA and SFO 
filteredPaths = tripGraph.bfs( 

fromExpr = "id = 'SEA'", 

EOBXDE = "10 = SEO", 

maxPathLength = 1) 


# display list of direct flights 
display (filteredPaths) 


fromExpr 和 toExpr 是 表示 出 上 友 地 和 目的 地 机 场 (分 别 是 SEA 和 SFO) 的 表达 式 。maxPathLength=1 表 示 我 们 只 需要 两 个 节 
所 之 间 的 一 个 边 ， 即 西雅图 和 旧金山 之 间 的 直 飞 航班 。 如 以 下 结果 所 示 ， 西 雅 图 和 旧金山 有 很 多 直 飞 航班 : 


eo 
» ("tripid*:1010710," delay":31, "src":" 
Francisco" "state dst*:"CA") 
» ("tripid*:1012125,"delay":-4,"src*:" 
Francisco" "state dst*:*CA"] 


» ("tripid*:1011840,"delay":-5,"src*:* 
Francisco" ,"state dst*:*CA") 


+ ("tripid*:1010610,"delay":-4,*src*:* 
Francisco",*state dst"*:*CA"] 


* ("tripid*:1011230,'delay":-2,*src":* 


Francisco" "state dst*:*CA") 


~ 


但 是 ， 如 果 我 们 想 确 定 旧 金山 和 布 法 罗 之 间 的 直 飞 航班 数量 呢 ? 你 会 
之 间 疫 有 和 直 飞 航班 : 


/ 


注意 a 到 运行 以 下 查询 将 没有 结果 ， 也 束 是 说 ， 两 个 城市 


# Obtain list of direct flights between SFO and BUF 


filteredPaths = tripGraph.bfs( 
FfromBxpr = "id = TEBEO", 
LOEXDEP = "1d = l'BUPB'M, 
maxPathLength - 1) 


4 display list of direct flights 
display (filteredPaths) 


一 旦 我 们 将 前 面 的 查询 修改 为 naxPathLength=2， 也 惑 是 一 次 中 转 ， 


那么 你 将 会 看 到 更 多 的 航班 选项 : 


4 display list of one-stop flights between SFO and BUF 


filteredPaths = tripGraph.bfs( 
fromExpr = "id = 'SFO'", 
EGEXDE = "Ad = UBUBR'M*, 
maxPathLength - 2) 


4 display list of flights 
display (filteredPaths) 


下 表 提 供 了 此 查询 输出 的 一 个 简化 版 本 : 


但 是 现在 我 有 我 的 机 场 列表 ， 那 我 该 如 何 确 定 哪 些 在 SFO 和 BUF 之 间 的 中 转机 场 更 受 欢迎 呢 ? 要 确定 这 一 点 ， 您 现在 可 以 运 


行 以 下 查询 : 


4 Display most popular layover cities by descending count 


display(filteredPaths.groupBy("vil1.id", "vi.City").count(). 
orderBy(desc("count")).limit(10)) 


下 面 的 条 形 图 给 出 了 输出 : 


Atlanta Las Vegas — Charlotte Phoenix Fort Lauderdale Newark Orlando 


7.12. fFHDSn3lERI IN 


为 了 获得 这 个 数据 集中 航班 路 径 和 联系 的 强大 而 有 趣 的 可 视 化 结果 ， 我 们 可 以 利用 Databricks notebook 中 的 Airports D3 
visualization (https://mbostock.github.io/d3/talk/20111116/airports.html) 方法 。 通 过 连接 我 们 的 GraphFrames、 


DataFrame 和 D3 visualization， 我 们 可 以 看 到 所 有 在 数据 集中 被 标记 为 准点 或 提前 出 友 的 航班 联系 汽 围 。 


BERARTI (BILA) ， 其 中 国 圈 的 大 小 表示 进出 这 些 机 场 的 边 ( 即 航 班 )》 的 数量 。 黑 线 是 边 本 身 ( 即 航班 )》 及 其 各 
目 与 其 他 节点 ( 即 机 场 ) 的 连接 。 注 意 连 到 画面 以 外 的 边 代 表 夏 威 夷 和 阿拉 斯 加 州 的 节点 ( 即 机 场 ) 


为 了 这 个 工作 ， 我 们 首先 要 创建 一 个 名 为 d3a 的 scala 包 内 入 到 我 们 的 notebook 中 (你 可 以 从 这 里 下 
载 : http;//bit.ly/2kPkXkc) 。 因 为 我 们 正在 使 用 Databricks notebook， 我 们 可 以 在 我 们 的 PySpark notebook 中 调用 Scala: 


$scala 
// On-time and Early Arrivals 
import d3a. 
graphs.force( 
height - 800, 
width - 1200, 
clicks = sqgl("""select src, dst as dest, count(1) as count from 
departureDelays geo where delay <= 0 group by src, dst""").as[Edgel) 


在 下 面 的 屏幕 截图 中 我 们 可 以 看 到 之 前 查询 的 准点 和 提前 到 达 的 航班 结 


你 可 将 鼠标 悬 停 在 airports D3 visualization hN (BERA, PA) 上 ， 其 中 线条 为 边 (航班 ) 。 上 面 图 在 西雅图 
(SEA) 机 场 的 屏幕 截图 ; 而 下 图 是 当 我 们 悬 停 在 洛杉矶 (LAX) 机 场 时 的 屏幕 截图 : 


7.13 ”小结 


正如 你 在 本 章 中 所 看 到 ， 你 可 以 通过 对 图 形 结构 执行 查询 来 轻松 执行 大 量 强大 的 数据 分 析 。 使 用 GraphFrames， 你 可 以 利用 
DataFrame API 的 强大 功能 、 简 便 性 和 性 能 来 处 理 你 的 图 形 问 题 。 


有 关 GraphFrames 的 更 多 信息 ， 请 参考 以 下 资源 : 
: Introducing GraphFrames (http://bit.ly/2dBPhKn) 
: On-Time Flight Performance with GraphFrames for Apache Spark (http:/ /bit.ly/2c804ZD) 
: On-Time Flight Performance with GraphFrames for Apache Spark (Spark 2.0) Notebook (http: / /bit.]y/2kPkXkc) 
: GraphFrames Overview (http:/ /graphframes.github.io/) 
* Pygraphframes documentation (http:/ /graphframes.github.io/api/python/graphframes.html) 
: GraphX Programming Guide  (http:/ /spark.apache.org/docs/latest/graphx-programming-guide.html ) 


在 下 一 章 中 ， 我 们 将 把 PySpark 的 视线 扩展 到 Deep Learning 的 领域 ， 重 点 是 TensorFlow 和 TensorFrames。 


第 8 重 TensorFrames 


本 章 将 针对 深度 学 习 (Deep Learning) 的 新 兴 领 域 介 绍 高 级 入 门 知识 以 及 为 什么 该 领域 如 此 重要 的 原因 。 本 章 将 提供 深度 
学 习 所 需 的 特征 学 习 和 神经 网 络 的 基础 知识 。 同 样 ， 本 章 还 会 给 为 Apache Spark 服 务 的 TensorFrames 提 供 一 个 快速 入 门 。 


从 前 面 的 细节 可 以 看 出 ， 我 们 从 讨论 深度 学 习 开 始 。 更 具体 地 说 ， 我 们 将 从 神经 网 络 开始 。 


8.1 ”深度 学 习 是 什么 


深度 学 习 是 基于 数据 学 习 表 达 的 机 器 学 习 技术 系列 的 一 部 分 。 深 度 学 习 是 松散 地 基于 我 们 上 自己 大 脑 的 神经 网 络 ， 这 个 结构 的 
目的 是 提供 大 量 高 度 相互 关联 的 元 素 (在 生物 系统 中 ， 这 将 是 我 们 大 脑 中 的 神经 元 ) ;我 们 大 脑 中 有 大 约 1000 亿 个 神经 元 ， 每 个 
神经 元 连接 到 大 约 10000 个 其 他 的 神经 元 ， 结 果 是 不 可 思议 的 1015 个 突 触 连接 。 这 些 元 素 通 过 学 习 过 程 共 同 解决 问题 ， 其 中 包括 
模式 识别 和 数据 分 类 。 

在 这 种 架构 中 的 学 习 涉 及 修改 关联 元 素 之 间 的 连接 ， 类 似 于 我 们 上 自己 的 大 脑 如 何 调整 神经 元 之 间 的 突 触 连接 。 

传统 的 算法 涉及 对 已 知 步骤 或 数量 的 编程 ， 也 融 是 说 ， 你 已 经 知道 解决 具体 问题 的 步骤 ， 现 在 重复 该 解决 方案 并 使 其 运行 更 
快 。 神 经 网 络 是 一 个 有 趣 的 范例 ， 因 为 神经 网 络 通 过 示例 学 习 ， 实 际 上 并 不 是 为 了 执行 特定 任务 本 身 而 设计 。 这 使 得 神经 网 络 


(和 深度 学 习 ) 中 的 训练 过 程 非常 重要 ， 因 为 你 必须 为 神经 网 络 提 供 恨 好 的 示例 ， 否 则 将 学 习 错 误 的 事情 ( 即 提供 不 可 预测 的 结 
R) o 


KHA M: Wikimedia Commons: File: Réseau de neutones.jpg; | 


构建 人 造 神 经 网 络 的 最 常见 方法 是 创建 三 个 层次 : 输入 层 、 隐 藏 层 和 输出 层 。 如 下 图 所 示 : 


隐藏 层 1 隐藏 层 2 


输出 层 ， 


如 上 图 所 示 ， 每 个 层 由 一 个 或 多 个 具有 连接 ( 即 数 据 流 ) 的 节点 组 成 。 输 入 节点 是 被 动 的 ， 因 为 它们 接收 数据 ， 但 不 修改 信 
息 。 隐 藏 层 和 输出 层 中 的 节点 将 主动 修改 数据 。 例 如 ， 输 入 层 中 的 三 个 忆 点 到 第 一 个 隐藏 层 中 的 一 个 节点 的 连接 如 下 图 所 示 : 


h =x w, tX Ww t X1W 


参考 信号 处 理 神经 网 络 示 例 ， 每 个 输入 (表示 为 xi) 具有 相应 的 权重 (wi) ， 这 会 产生 一 个 新 值 。 在 这 种 情况 下 ， 其 中 一 个 隐 
藏 节点 (hi) 是 三 个 修改 后 的 输入 书 点 的 结果 : 


hı —X4W4 TX2W»tX4Wa 


训练 过 程 中 ， 还 可 以 通过 一 个 侦 关 对 这 个 总 和 进行 调整 。 总 和 (我 们 示例 中 的 h1) 通过 所 谓 的 激活 函数 确定 神经 元 的 输出 。 
一 些 具 此 激活 功能 的 例子 如 下 图 所 示 : 


输入 值 


这 个 过 程 在 隐藏 层 以 及 输出 层 中 的 每 个 节 点 都 是 重复 的 。 输 出 节点 是 应 用 于 每 个 活动 层 节 点 的 输入 信 的 所 有 权重 的 罕 加 。 学 
习 过 程 是 应 用 和 重新 应 用 这 些 权重 (在 这 种 情况 下 ) 的 许多 迭代 并 行 运行 的 结 


神经 网 络 以 各 种 不 同 的 大 小 和 形状 出 现 。 最 流行 的 是 单 层 和 多 层 前 馈 型 网 络 ， 类 似 于 前 面 提 到 的 那 种 。 输 出 层 中 的 这 种 结构 
(即使 只 有 两 层 和 一 个 神经 元 ! ) 的 神经 元 能 够 解决 简单 的 回归 问题 (如 线性 和 逻辑 ) ， 还 能 解决 高 度 复杂 的 回归 和 分 类 任务 
(具有 许多 隐藏 层 和 多 个 神经 元 ) 。 常 用 的 另 一 种 神经 网 络 类 型 是 自 组 织 图 。 芬 兰 研究 员 Teuvo Kohonen 首 先 提出 了 这 种 结构 ， 
所 以 它 有 时 也 被 称 为 Kohonen 网 络 。 这 种 结构 可 以 在 没有 教练 的 情况 下 训练 ， 也 就 是 说 ， 它 们 不 需要 目标 (无 监督 的 学 习 范 
例 ) 。 这 种 结构 最 常用 于 解决 聚 类 问题 ， 其 目的 是 在 数据 中 找到 一 个 基础 模式 。 


GC 
— 有 关 神 经 网 络 类 型 的 更 多 信息 ， 我 们 建议 你 参阅 此 文档 : http://www.ieec.cz/knihovna/Zhang/Zhang100-ch03.pdf. 


请 注意 ， 除 了 TensorFlow 之 外 ， 还 有 许多 其 他 有 趣 的 深度 学 习 库 ; 包括 但 不 限于 Theano、Torch、Caffe、Microsoft 
Cognitive Toolkit (CNTK) 、mxnet 和 DL4J。 


8.1.1 神经 网 络 和 深度 学 习 的 必要 性 


独 经 网 络 (以 及 深度 学 习 ) 有 很 多 潜 企 的 应 用 。 肝 些 更 受 欢 迎 的 应 用 包括 人 脸 识别 、 手 写 数 字 识 别 、 博 弈 、 语 音 识 别 、 语 言 
翻译 和 对 象 分 类 。 这 里 的 关键 因 素 是 它 涉 及 学 习 和 模式 识别 |。 


虽然 神经 网 络 已 经 存在 了 很 长 时 | 间 (至 少 在 计算 机 科学 史 的 背景 下 ) ， 但 是 直到 现在 它 才 变 得 更 被 大 众 认 可 ， 其 主要 原因 
是 : 分 布 式 计算 的 进步 和 其 可 用 性 的 提高 以 及 研究 的 进展 : 


党 
rl 
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-分布 式 计算 和 硬件 的 进步 以 及 可 用 性 的 提高 : 分 布 式 计算 框架 (如 Apache Spark) 使 你 可 以 通过 并 行 运行 更 多 模型 
完成 更 多 的 训练 迭代 ， 以 确定 机 器 学 习 模 型 的 最 佳 参 数 。 随 着 GPU (最 初 设计 用 于 显示 图 形 的 图 形 处 理 单元 ) 的 流行 ， 这 些 处 理 
器 开始 擅长 执行 机 器 学 习 所 需 的 资源 密集 型 数学 计算 。 还 有 云 计 算 ， 利 用 分 布 式 计 算 和 GPU 的 优势 变 得 更 加 容易 ， 因 为 通过 使 
云 计 算 可 以 降低 前 期 成 本 ， 缩 短 部 署 时 间 ， 更 容易 提高 系统 的 弹性 部 署 。 


zu 


. 深度 学 习 研 究 的 进步 : 这 些 硬件 的 进步 已 经 帮助 神经 网 络 重 回 数据 科学 的 前 沿 ， 这 些 项 目 包括 TensotFlow 以 及 其 他 流行 的 


项 目 例 如 Theano、Caffe、Totch、Mictosoft Cognitive Toolkit (CNTK) ~ mxnetfeDLAJ. 


要 深入 了 解 这 些 主题 ， 这 里 有 两 个 不 错 的 参考 文献 : 


: Lessons Learned from Deploying Deep Learning at Scale (http:/ /blog.algorithmia.com/deploying-deep-learning-cloud-setvices/) : 
Algotithmia 的 这 篇 章 讨 论 了 他 们 在 大 规模 部 署 深度 学 习 解 决 方案 方面 的 研究 。 


: Neural Networks by Christos Stergio and Dimitrios Siganos (http://bit.ly/2hNSWar) : 一 本 很 好 的 神经 网 络 入 门 书 。 


如 前 所 述 ， 深 度 学 习 是 基于 数据 学 习 表 达 的 机 器 学 习 方法 系 询 的 一 部 分 。 在 学 习 表示 形式 的 情况 下 ， 这 也 可 以 被 定义 为 特征 
度 学 习 令 人 兴 否 的 一 上 后 是 它 有 可 能 替代 或 者 最 小 化 手动 特征 工程 的 需求 。 深 度 学 习 使 得 机 器 不 仪 学 习 一 个 特定 的 任务 ， 
均 任 务 所 需 的 功能 。 更 简洁 的 是 ， 使 特征 工程 目 动 化 或 教 机 器 学 会 如 何 学 习 (一 个 很 好 的 特征 学 习 参 考 文 献 来 自 斯 坦 福 
大 学 的 无 监督 特征 学 习 和 深度 学 习 教 程 : http://deeplearning.stanford.edu/tutorial/) 。 


为 了 将 这 些 概念 转化 为 基本 原理 ， 让 我 们 从 一 个 特征 开始 。 正 如 Christopher Bishop 所 著 的 《Pattern Recognition and 
machine learning》 中 和 前 面 关 于 MLlib 和 ML 的 章节 所 描述 的 ， 特 征 是 观察 到 的 现象 的 可 度量 属性 。 


如 果 你 对 统计 领域 更 为 熟悉 ， 则 可 以 参考 随机 线性 回归 模型 中 的 独立 变量 (X1, Xo, .., Xn) 的 特征 : 


在 这 个 具体 的 例子 中 ，y 是 因 变 量 ，xi 是 独立 变量 


在 机 器 学 习 情境 的 背景 下 ， 特 征 示例 包括 : 


- 餐厅 推荐 : 特征 包括 与 餐厅 相关 的 评论 、 评 级 、 其 他 内 容 和 用 户 个 人 资料 属性 。 一 个 不 错 的 该 模型 例子 是 “Yelp Food 


Recommendation System" , http://cs229.stanfotd.edu/proj2013/SawantPai-Y elpFoodRecommendationSystem.pdf) o 
手写 数字 识别 : 特征 包括 块 状 直方 图 ( 沿 2D 方 向 的 像素 数 ) 、 孔 、 行 程 检测 等 。 示 例 包 括 : 
: Handwritten Digit Classification, http://ttic.uchicago.edu/~smaji/projects/digits/; 


: Recognizing Handwtitten Digits and Characters, http://cs231n.stanford.edu/reports/vishnu final.pdf. 


- 图 像 处 理 : 特征 包括 图 像 中 的 点 、 边 和 对 象 。 一 些 不 错 的 例子 包括 : 
: AndréAichert 的 Seminar: Feature extraction, http:/ /home.in.tum.de/ —aichert/featurepres.pdf; 


: University of Washington Computer Science&Engineering CSE455: Computer Vision 


Lecture6, https://coutses.cs.washington.edu/coutses/cse455/09wi/Lects/lect6.pdf. 


特征 工程 是 关于 确定 哪些 特征 (例如 在 统计 学 中 的 独立 变量 ) 对 于 定义 你 正在 创建 的 模型 是 很 重要 的 。 通 剃 ， 它 涉及 使 用 领 
域 知 识 创建 特征 以 允 计 ML 模型 工作 的 过 程 。 


找到 特征 难度 大 ， 费 时 费力 ， 需 要 专业 知识 。“ 应 用 机 器 学 习 ” 基 本 上 是 特征 工程。 


— —Andrew Ng, Machine Learning and Al via Brain 


simulations (http://helper.ipam.ucla.edu/publications/gss2012/9ss2012 10595.pdf) 


8.1.2 ”特征 工程 是 什么 


通常 ， 执 行 特征 工程 涉及 诸如 特征 选择 (选择 原始 特征 集 的 子 集 ) 或 特征 提取 (从 原始 特征 集 构建 新 的 特征 集 ) 之 类 的 概 


C 在 特征 选择 中 ， 根 据 领 域 知 识 ， 你 可 以 过 滤 你 认为 可 以 定义 模型 的 变量 (例如 根据 营业 额 预测 足球 分 数 ) 。 通 常 ， 数 据 分 
析 技 术 (如 回归 和 分 类 ) 也 可 用 于 帮助 你 确定 这 一 点 。 


特征 提取 的 方法 是 将 数据 从 高 维 空 间 《〈 即 许多 不 同 的 独立 变量 ) 转换 为 维度 更 少 的 较 小 空间 。 继 续 用 美式 橄榄 球 来 类 比 ， 
这 将 是 四 分 卫 等 级 ， 它 基于 几 个 选 定 的 功能 〈 例 如 ， 完 成 、 达 阵 、 拦 截 、 每 次 尝试 的 平均 得 分 等 ) 。 线 性 数据 转换 空间 中 特征 提 
取 的 常用 方法 是 主 成 分 分 析 (PCA) : http://spark.apache.org/docs/latest/mllib-dimensionality-reduction.html # principal-component- 


analysis-pca。 其 他 常见 机 制 包括 : 
Nonlinear dimensionality reduction, https://en.wikipedia.org/wiki/Nonlinear dimensionality reduction; 


Multilinear subspace learning, https://en.wikipedia.org/wiki/Multilinear subspace learning. 


Q 一 份 有 关 特 征 选 择 与 特征 提取 话题 的 很 好 的 参考 资料 是 What is dimensionality reduction? What is the difference between feature 
selection and extraction? (http://datascience.stackexchange.com/questions/130/what-is-dimensionality-reduction-what-is-the-difference- 


between-featute-selecti/13222132) à 


8.1.3 ”桥接 数据 和 算法 


我 们 在 特征 选择 的 上 下 文中 使 用 餐厅 推荐 的 例子 来 把 特征 和 特征 工程 定义 桥接 起 来 : 


如 何 选 择 特征 ? 


备 选 特征 


使 用 BI 工具 还 是 电子 表格 来 分 析 ? 
使 用 机 需 学 习 算 法 吗 ? 


分 类 


可 以 预约 吗 ? 


时 然 这 是 一 个 简化 的 模型 ， 但 是 它 用 类 比 的 手法 摘 述 了 应 用 机 器 学 习 的 基本 前 提 。 由 数据 科学 家 来 分 析 数 据 ， 以 确定 该 餐厅 
推荐 模型 的 主要 特征 。 


在 我 们 的 餐厅 推荐 案例 中 ， 虽 然 很 容易 假设 地 理 定 位 和 美食 类 型 是 主要 因素 ， 但 是 需要 一 些 数据 挖掘 才能 了 解 用 户 (BIET 
的 食客 ) 选择 餐厅 的 仿 好 。 不 同 的 和 餐厅 通常 具有 不 同 的 特征 或 权重 。 


例如 ， 高 档 餐 饮 餐 饮 企 业 的 主要 特征 往往 与 位 置 ( 即 离 客户 比较 近 ) 、 大 规模 聚会 的 预约 能 力 以 及 酒 单 的 多 样 性 有 天 : 


备 选 特征 


合 商 务 吗 ? 
可 以 预约 吗 ? 2 可 以 预约 吗 ? 


Te 


同时 ， 对 于 特色 餐厅， 往往 很 少 涉及 上 述 因素 ; 相反 ， 重 点 是 评论 、 评 级 、 社 交 媒 体 上 上 友 布 的 消息 以 及 餐厅 是 否 适 合 小 孩 : 


备 选 特征 


位 置 
3E 
能 否 外 带 ? 
适合 儿童 吗 ? 
可 以 预约 吗 ? 
可 以 预约 吗 ? 级 别 4 
级 别 : 评论 
评论 口碑 2 


划分 这 些 不 同 餐 厅 (及 其 目标 受众 ) 的 能 力 是 应 用 机 器 学 习 的 关键 方面 。 这 可 能 是 一 个 艰巨 的 过 程 ， 你 可 以 尝试 使 用 不 同 变 
量 和 权重 的 不 同 模型 和 算法 ， 然 后 在 重复 训练 和 测试 许多 不 同 的 组 合 后 重 试 。 但 请 注意 ， 这 种 耗 时 的 迭代 方法 本 身 是 否 可 以 成 为 
一 个 目 动 化 的 过 程 y 这 是 建立 帮助 机 器 学 习 学 习 的 算法 的 天 键 环节 一 深度 学 习 有 可 能 企 构建 模型 时 将 学 习 过 程 目 动 化 。 


8.2 TensorFlow 是 什么 


TensorFlow 是 一 个 Google 开 源 软 件 库 ， 用 于 使 用 数据 流 图 进行 数值 计算 。 换 句 话 襄 束 是 一 个 以 深度 学 习 为 重点 的 开源 机 器 
学 习 库 。TensorFlow 是 Google Brain 团 队 的 研究 人 员 和 工程 师 基于 神经 网 络 将 深度 学 习 应 用 于 Google 产 品 ， 并 为 各 个 Google 团 
队 (包括 但 不 限于 ) 的 搜索 、 照 片 和 语音 识别 构建 生产 模型 的 成 果 。 


Tensorflow 建 立 在 具有 Python 接口 的 C++ 之 上 ， 它 在 很 短 的 时 间 内 迅速 成 长 为 最 受 欢 迎 的 深度 学 习 项 目 之 一 。 下 图 展示 了 
四 个 流行 的 深度 学 习 库 之 间 的 Google trend 比 较 ; 请 注意 2015 年 11 月 8 日 至 14 日 (TensorFlow 宣 布 时 ) 的 尖峰 以 及 去 年 快速 上 
SK (此 快照 拍 于 2016 年 12 月 底 ) : 


随时 间 推 移 的 关注 度 Google Trends 


9 tensorflow — 9 caffe 9 Torch 9 theano 


Worldwide. 过 去 五 年 


让 我 们 用 另 一 种 方法 来 衡量 TensorFlow 的 人 气度 。 你 可 以 注意 到 根 
据 http://www.theverge.com/2016/4/13/11420144/google-machine-learning-tensorflowupgrade 所 述 ，TensorFlow 是 
GitHub 上 最 受 欢 迎 的 机 器 学 习 框 架 。 请 注意 ，TensorFlow 在 2015 年 11 月 友 布 ， 仪 仪 在 两 个 月 内 残 已 经 成 为 GitHub repository 最 
受 欢 迎 的 ML 分 支 。 在 下 图 中 ， 你 可 以 通过 http://donnemartin.com/viz/pages/2015 查 看 每 个 2015 年 创建 的 GitHub 


repository (Interactive Visualization) : 


GitHub Repositories Created in 2015 


Interactive Visualizations of GitHub's Newest, Most Popular Repos 
Author: https //www.github.com/donnemartin 


82 3 4 5 6 7 8 9 A 


Repo Stars and Forks (Log Scale) User Type Filter 
(All) 
20,000 
Multi User Filter 


[|  ] 


10,000 


Multi Language Filter 
(All) v 


Click to Highlight 
lg] JavaScript 
BE Java 

lll unknown 
天 Objective-C 
lll Python 

E Swift 

| co 

g C++ 

| HTML 
aNC 

gn css 


10.000 20.000 ll PHP 


E C# 


Hover: View info | Click: View repo url Data: Repos created in 2015, >= 100 stars | Date Range: 1/1/2015 to 1/1/2016 
Interact with the filters FAQ: See the final tab "A" for more info 


H [me] 
€ Undo  — Redo |€ Reset 8 rableav LJ, Full Screen 
11,949 views | more by this author 


如 前 文 所 述 ，TensorFlow 使 用 数据 流 图 进行 数值 计算 。 当 考虑 图 形 〈 正 如 上 一 章 一 样 ) 时 ,该 图 的 节点 (或 顶点) 表示 数学 
运算 ， 而 图 形 的 边 表示 在 不 同 节 操 (也 融 是 数学 运算 ) 之 间 通 信 的 多 维 数组 ( 即 张 量 ) 。 


参考 下 图 ，t1 是 2x 33BE, mutoii3x2;BEE; 这 些 是 张 量 (或 张 量 图 的 边 ) 。 节 点 是 表示 为 0p1 的 数学 运算 : 


JT * 


在 这 个 例子 中 ，op1 是 由 下 图 所 示 的 和 矩阵 乘法 运算 ， 这 可 以 是 TensorFlow 中 多 种 可 用 数学 运算 中 的 任意 一 个 : 


Op 


] 
~ 
O~ 


为 了 在 图 中 执行 数值 计算 ， 在 数学 运算 (PA) 之 间 人 存在 一 个 多 维 数组 ( 即 张 量 ) 的 数据 流 ， 即 张 量 流 或 TensorFlow。 
明 ， 请 参阅 "TensorFlow|Download and 


介绍 


为 了 更 好 地 了 解 TensorFlow 的 工作 原理 ， 我 们 首先 在 你 的 Python 环境 中 安装 TensorFlow (最 初 没有 Spark) 。 有 关 完 整 说 


Setup" : https://www.tensorflow.org/versions/r0.12/get started/os setup.html, 
在 本 章 中 ， 我 们 将 重点 


8.2.1 


Linux 或 Mac OS 上 使 用 Python pip 软 件 包 管 理 系统 的 安装 。 
安装 PIP 


确保 你 已 经 安 六 了 pip; 如 果 没 有 ， 请 使 用 以 下 命令 安装 Ubuntu/Linux 的 Python 软件 包 安 妆 管 理 器 : 
# Ubuntu/Linux 64-bit 


$ sudo apt-get install python-pip python-dev 
对 于 Mac OS， 你 可 以 使 用 以 下 命令 : 
# macos 


$ sudo easy install pip 
$ sudo easy install --upgrade six 
请 注意 


此 ， 你 可 以 运行 命令 : 


对 于 Ubuntu/Linux， 你 可 能 还 需要 升级 pip， 因 为 Ubuntu 存 储 库 中 的 pip 是 旧 的 ， 可 能 与 新 的 软件 包 不 兼容 。 为 
# Ubuntu/Linux pip upgrade 


$ pip install --upgrade pip 


8.22 ZZE£TensorFlow 
要 安装 TensorFlow (Epip) ， 你 只 需 执行 以 下 命令 : 


$ pip install tensorflow 


如 果 你 有 一 台 支 持 GPU 的 计算 机 ， 则 可 以 使 用 以 下 命令 : 


$ pip install tensorflow-gpu 


请 注意 ， 如 果 上 述 命令 不 起 作用 ， 另 有 具体 说 明 可 根据 你 的 Python 版 本 ( 即 2.7，3.4 或 3.5) 和 和 GPU 支持 来 安 六 具有 GPU 支 


持 的 TensorFlow。 


例如 ， 如 果 我 想 在 Mac OS 上 安装 具有 GPU 功能 的 Python 2.7 的 TensorFlow， 请 执行 以 下 命令 : 


# macOS, GPU enabled, Python 2.7: 


$ export TF BINARY URL-https://storage.googleapis.com/tensorflow/mac/gpu/ 
tensorflow gpu-0.12.0rcl-py2-none-any.whl 


# Python 2 
$ sudo pip install --upgrade $TF BINARY URL 


Q 最 新 安装 指南 请 参考 https:// www.tensorflow.org/versions/r0.12/get_started/os_setup.html o 


8.2.3 (EAT EH TAFA 


73 f Sif bk T ensorFlowh I LIFRE, 33:4] — 1 E RANEA ERRAR. REAR, RS 
c1 (3x BF) 和 c2 (1x33BBE) ， 其 中 操作 (op1) 是 算 阵 乘法 : 


C 1 


3 2L c=| > 


我 们 现在 将 使 用 以 下 代码 定义 c1 (1x 3388€) 和 c2 (3x BI). : 


# Import TensorFlow 
import tensorflow as tf 


4 Setup the matrix 


H Cl: 1x3 matrix 
H C2: 3x1 matrix 
C1 = tf.constant([[3., 2., 1.11) 


c2 = tf.constant([[-1.1, [2.1], [1.11) 


SUE TRAZE, EREA TERETE RA. fETensorFlowEBS ERAP, IERP ARARE (或 
ops) 。 以 下 矩阵 乘法 是 ops， 而 两 个 矩阵 (c1, co) 是 张 量 (类 型 化 的 多 维 数组 ) 。 一 个 op 将 零 个 或 多 个 张 量 作为 其 输入 ， 执 行 
诸如 数学 计算 的 操作 ， 输 出 为 零 个 或 多 个 张 量 ， 其 格式 为 numpy ndarray 对 象 (http://www.numpy.org/) 或 C 及 C++ 中 的 接口 
tensorflow: : Tensor: 

4 m3: matrix multiplication (m1 x m3) 


mo e tr.matmuulicl, a2) 


现在 已 经 建立 了 TensorFlow 的 图 形 ， 则 该 操作 Cb ESRB S RESRBEBREK) 已 经 在 会 话 中 完成 。 会 话 将 图 形 操 作 放 入 要 
执行 的 CPU 或 GPU ( 即 设备 ) rp: 


# Launch the default graph 


s = tf.Session() 


# run: Execute the ops in graph 
r = s.run(mp) 


print (r) 


输出 将 是 


& [[ 2.1] 


一 旦 操作 结束 ， 你 可 以 关闭 会 话 : 


# Close the Session when completed 


s.close() 


8.2.44 使 用 placeholder 进 行 矩 阵 乘法 


现在 我 们 将 执行 与 之 前 相同 的 任务 ， 不 过 这 一 次 ， 我 们 将 使 用 张 量 而 不 是 常量 。 如 下 图 所 示 ， 我 们 将 使 用 与 上 一 节 相 同 的 值 
从 两 个 矩阵 (m1: 3x1, m2: 1x3) 开始 : 


m= | 3. 2. 1. m,=| —1. 2. 1. 


f, 


t >: 
€ placeholder 


placeholde? 


TensorFlow Computation Graph 


在 TensorFlow 中 ， 我 们 将 使 用 placeholder 根 据 以 下 代码 段 来 定义 我 们 的 两 个 张 量 : 


# Setup placeholder for your model 
# t1: placeholder tensor 

H t2: placeholder tensor 

t1 = tf.placeholder (tf.float32) 

t2 = tf.placeholder (tf.float32) 


# t3: matrix multiplication (ml x m3) 
tp = tf.matmul(ti, t2) 


这 种 方法 的 优点 在 于 ， 通 过 placeholder， 你 可 以 使 用 与 不 同 大 小 和 形状 的 张 量 (只 要 它们 符合 操作 的 标准 ) 相同 的 操作 (在 
这 种 情况 下 融 是 中 阵 乘法 ) 。 像 上 一 节 中 的 操作 一 样 ， 我 们 定义 两 个 所 阵 并 执行 图 形 (使 用 简化 会 话 执 行 ) 。 
运行 模型 


以 下 代码 片段 与 上 一 节 中 的 代码 段 相 似 ， 不 同 的 是 它 现在 使 用 placeholder 而 不 是 党 量 : 


# Define input matrices 
LIS Aer edd 
[[-1.], [2.], [1.1] 


mi 


m2 


# Execute the graph within a session 
with tf.Session() as s: 
print(s.run([tpl, feed dict-[tl1:ml1, t2:m2j)) 


输出 值 同 时 包含 数据 类 型: 


[array ([[ 2.]], dtype=float32)] 


运行 另 一 个 模型 


现在 我 们 有 一 个 使 用 placeholder 的 图 形 〈 尽 管 是 一 个 简单 的 ) ， 我 们 可 以 使 用 不 同 的 张 量 来 使 不 同 的 输入 矩阵 执行 相同 的 操 
作 。 如 下 图 所 示 , 我 们 有 m1 (4x1) 和 m2 (1x4) : 


-1 
m= |3. 2. 1. Q. m=| -5. -4. -3. -2. 


b: 
placeholder 


i TensorFlow Computation Graph 


"d 


op mixx t 


因为 我 们 正在 使 用 placeholder， 所 以 我 们 可 以 轻松 地 使 用 新 的 输入 在 新 会 话 中 重用 相同 的 图 形 : 


# setup input matrices 
mL = Dl. 2o. d. Dll 
[[-5.], [-4.], [-3.], [-2.]] 


4 Execute the graph within a session 


m2 


with tf.Session() as s: 
print(s.run([tpl], feed dict={t1:m1, t2:m2])) 


结果 将 为 : 


[larray i [[-26.]], dtype-float32)| 


8.2.5 讨论 

如 前 所 述 ，TensorFlow 通 过 将 计算 表示 为 用 张 量 表示 数据 (图 形 的 边 ) 、 操 作 表 示 要 执行 内 容 (例如 数学 计算 ) (图 的 边 
R) 的 图 形 ， 为 用 户 提 供 了 使 用 Python 库 进 行 深度 学 习 的 能 力 。 

更 多 内 容 请 参阅 : 

+ "TensotFlow | Get Started | Basic Usage" , https:/ /www.tensorflow.org/get started/basic usage; 


+ "Shannon McCormick?’ s Neural Network and Google TensorFlow" , http:/ /www.slideshare.net/ShannonMcCormick4/neural- 


networks-and-google-tensor-flow o 


8.3 TensorFrames 介 绍 


在 撰写 本 文 时 ，TensorFrames 是 Apache Spark 的 实验 性 约束 。 它 是 企 TensorFlow 友 布 后 不 久 于 2016 年 初 推出 的 。 使 用 
TensorFrames， 可 以 利用 TensorFlow 程 序 来 操作 Spark DataFrame。 参 考 上 一 忆 中 的 张 量 图 ， 我 们 将 其 更 新 为 一 张 新 图 ， 以 显 
示 Spark DataFrame 如 何 与 TensorFlow 配 合 使 用 ， 如 下 图 所 示 : 


dfl-spark.createDataFrame (...) 


df2-spark.createDataFrame (...) 


E DL: 


placeholder ^ ——.. placeholder 


TensorFlow Computation Graph 


i 


ODp,-t, X i 


lensorFrames 


ee 


如 前 图 所 示 ，TensorFrames 在 Spark DataFrame 和 TensorFlow 之 间 提 供 了 一 个 桥梁 。 这 样 ， 你 可 以 将 DataFrame 作 为 输入 
应 用 到 你 的 TensorFlow 计 算 图 中 。TensorFrames 还 允许 你 使 用 TensorFlow 计 算 图 输出 并 将 其 推 回 到 DataFrame 中 ， 以 便 可 以 
继续 下 游 的 Spark 处 理 。 


TensorFrames 的 常见 用 法 通常 包括 以 下 内 容 : 
1. 应 用 TensorFlow 处 理 你 的 数据 


TensorFlow 和 Apache Spark 与 TensorFrames 的 集成 允许 数据 科学 家 通过 TensorFlow 扩 展 其 分 析 、 数 据 、 图 形 和 机 器 学 习 
功能 来 实现 深度 学 习 (Deep Learning) 。 这 样 束 可 以 按 比 例 训练 和 部 署 模 型 。 


2. 并 行 训练 确定 最 佳 的 超 参数 


构建 深度 学 习 模 型 时 ， 有 几 个 配置 参数 〈 即 超 参数 ) 会 影响 模型 的 训练 。 深 度 学 习 / 人 工 神 经 网 络 中 的 常见 之 处 是 定义 学 习 速 
率 的 超 参 数 (如 果 速率 很 高 ， 它 将 快速 学 习 ， 但 可 能 不 考虑 高 度 可 变 的 输入 。 也 残 是 说 ， 如 果 数 据 的 速率 和 变异 性 太 高 ， 学 习 的 


效果 不 会 太 好 ) 和 神经 网 络 中 每 一 层 神 经 元 的 数量 ( 太 多 的 神经 元 导致 估计 的 噪音 ， 而 太 少 的 神经 元 会 导致 网 络 学 习 结果 不 
HT). 


如 《Deep Learning with Apache Spark and TensorFlow)  (https://databricks.com/blog/2016/01/25/deep- 
learning-with-apache-sparkand-tensorflow.html) 所 述 ， 使 用 Spark with TensorFlow 来 帮助 找到 最 佳 的 神经 网 络 训练 超 参 
数 集 ， 可 以 使 训练 时 间 减 少 一 个 数量 级 ， 手 写 数 字 识 别 数据 集 的 错误 率 降低 34%。 


有 天 深度 学 习 和 起 参 数 的 更 多 信息 ， 请 参阅 : 


: Optimizing Deep Learning Hyper-Parameters Through an Evolutionary 


Algorithm (http://ornlcda.github.io/ MLHPC201 5 /presentations/4-Steven.pdf) 。 
- CS231n Convolutional Network Networks for Visual Recognition (http://cs231n.github.io/) o 


: Deep Learning with Apache Spark and TensorFlow (https:/ /databricks.com/blog/2016/01 /25/deep-leatning-with-apache-spark-and- 


tensorflow.html) 。 


在 撰写 本 文 时 ，TensorFrames 正 式 被 Apache Spark 1.6 (Scala 2.10) 支持 ， 尽 管 目前 大 多 数 贡 献 集中 在 Spark 2.0 (Scala 
2.11) 上 。 使 用 TensorFrames 的 最 简单 方法 是 通过 Spark Packages (https://spark-packages.org) 进行 访问 。 


8.4 TensorFrames 快 速 入 门 


所 有 这 些 前 言 之 后 ， 让 我 们 用 这 个 快速 入 门 教程 来 开始 使 用 TensorFrames。 你 可 以 在 http://bit.ly/2hwGyuC 下 载 并 使 用 
Databricks 社 区 版 中 笔记 本 的 完整 版 本 。 


你 也 可 以 从 PySpark shell (或 其 他 Spark 环 境 ) 运行 它 ， 融 像 任 何其 他 Spark 软 件 包 一 样 : 


# The version we're using in this notebook 
$SPARK HOME/bin/pyspark --packages tjhunter:tensorframes:0.2.2-s 2.10 


di Or use the latest version 


$SPARK HOME/bin/pyspark --packages 
databricks:tensorframes:0.2.3-s 2.10 


主 是 ， 你 将 只 需 使 用 上 述 命令 之 一 (而 不是 两 者 都 需要 ) 。 有 关 更 多 信息 ， 请 参阅 databricks/tensorframes 的 GitHub 
repository (https://github.com/databricks/tensorframes) 。 


8.4.1 HAMRA 


请 按照 以 下 顺序 执行 配置 和 设置 步骤 : 
启动 Spark 和 群集 


使 用 Spark 1.6 (Hadoop 1) 和 Scala 2.10 局 动 Spark 和 群集 。 这 已 经 在 Databricks 社 区 版 (http://databricks.com/try- 


databricks) 上 使 用 Spark 1.6, Spark 1.6.2 和 Spark 1.6.3 (Hadoop 1) 进行 了 测试 。 
创建 TensorFrames 库 


创建 一 个 库 ， 将 TensorFrames 0.2.2 附 加 到 你 的 群集 : tensorframes-0.2.2-s 2.10。 请 参考 第 7 章 来 了 解 如 何 创建 库 。 


在 集群 上 安装 TensorFlow 
在 笔记 本 中 ， 运 行 以 下 命令 之 一 来 安装 TensorFlow。 该 命令 已 使 用 TensorFlow 0.9 CPU 版 本 进行 了 测试 : 
: TensotFlow 0.9, Ubuntu/Linux 04-bit， 仅 用 于 CPU Python 2.7: 


/databricks/python/bin/pip install https://storage.googleapis.com/ 
tensorflow/linux/cpu/tensorflow-0.9.0rc0-cp27-none-linux x86 64. 
whl 


: TensorFlow 0.9, Ubuntu/Linux 64-bit, GPU] Jf] , Python 2.7: 


/databricks/python/bin/pip install https://storage.googleapis.com/ 
tensorflow/linux/gpu/tensorflow-0.9.0rc0-cp27-none-linux x86 64. 
whl 


以 下 是 安装 TensorFlow 到 Apache Spark 驱 动 的 pip installs : 


ssh 
/databricks/python/bin/pip install https://storage.googleapis.com/ 
tensorflow/linux/cpu/tensorflow-0.9.0rc0-cp27-none-linux x86 64.whl 


安 委 成 功 应 该 有 以 下 输出 : 


Collecting tensorflow--0.9.0rcO0 from https://storage.googleapis. 
com/tensorflow/linux/cpu/tensorflow-0.9.0rc0-cp27-none-linux 

x86 64.whl Downloading https://storage.googleapis.com/tensorflow/ 
linux/cpu/tensorflow-0.9.0rc0-cp27-none-linux x86 64.whl (27.6MB) 


Requirement already satisfied (use --upgrade to upgrade): 
numpy»-1.8.2 in /databricks/python/lib/python2.7/site-packages (from 
tensorflow--20.9.0rc0O0) Requirement already satisfied (use --upgrade 


to upgrade): six»-1.10.0 in /usr/lib/python2.7/dist-packages 

(from tensorflow--20.9.0rcO0) Collecting protobuf--3.0.0b2 (from 
tensorflow--0.9.0rcO0) Downloading protobuf-3.0.0b2-py2.py3-none-any. 
whl (326kB) Requirement already satisfied (use --upgrade to upgrade): 
wheel in /databricks/python/lib/python2.7/site-packages (from 
tensorflow--0.9.0rc0) Requirement already satisfied (use --upgrade to 
upgrade): setuptools in /databricks/python/lib/python2.7/site-packages 
(from protobuf2z23.0.0b2-»tensorflow-20.9.0rcO0) Installing collected 
packages: protobuf, tensorflow Successfully installed protobuf-3.0.0b2 
tensorflow-0.9.0rcO0 


成 功 安 疼 TensorFlow 后 ， 请 分 离 并 重新 连接 刚刚 运行 此 命令 的 笔记 本 。 你 的 集群 现 已 配置 完成 ， 你 可 以 在 该 驱动 上 运行 纯 


TensorFlow 程 序 ， 也 可 以 在 整个 集群 上 运行 TensorFrames 示 例 |。 


8.4.2 ”使 用 TensorFlow 向 已 有 列 添 加 常量 


这 是 一 个 简单 的 TensorFrames 程 序 ， 其 中 的 op 是 执行 简单 的 添加 。 请 注意 ， 原 始 源 代 码 可 以 在 databricks/tensorframes 的 
GitHub repository 中 找到 。 这 是 参考 了 TensorFrames Readme.md| (How to Run in Python? Tit 
(https://github.com/databricks/tensorframes#how-to-runin-python) 。 


我 们 首先 要 做 的 是 导入 TensorFlow、TensorFrames 和 和 pyspark.sql.row 来 创建 一 个 基于 浮 点 数 RDD 的 DataFrame: 


# Import TensorFlow, TensorFrames, and Row 
import tensorflow as tf 


import tensorframes as tfs 
from pyspark.sql import Row 


# Create RDD of floats and convert into DataFrame “df ° 
rdd = [Row(x-float(x)) for x in range (10)] 
df = sqlContext.createDataFrame (rdd) 


要 查看 由 浮 点 数 RDD 生 成 的 df DataFrame， 我 们 可 以 使 用 Show 命令 : 


df.show() 


这 产生 以 下 结果 : 
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执行 张 量 图 


如 前 所 述 ， 该 张 量 图 会 将 由 自 浮 点 数据 RDD 生 成 的 df DataFrame 创 建 的 张 量 的 每 个 值 加 3 组 成 。 现 在 我 们 将 执行 以 下 代码 片 


4 Run TensorFlow program executes: 

# The 'op' performs the addition (i.e. 'x' + '3') 
H Place the data back into a DataFrame 

with tf.Graph().as default() as g: 


H The placeholder that corresponds to column 'x'. 
# The shape of the placeholder is automatically 
# inferred from the DataFrame. 

x = LrB.DIOGKIJgE, "x") 


# The output that adds 3 to x 
Z - tf.add(x, 3, names'z') 


4 The resulting dft2 DataFrame 
df2 s tfs.map blocks(z, df) 


4 Note that 'z' is the tensor output from the 
# 'tf.add' operation 


print z 


4H Output 
Tensor("z:0", shape-(?,), dtype-floato64) 
以 下 是 上 述 代码 段 的 一 些 特 定 调用 : 
- x 使 用 tfs.block， 其 中 block 根 据 DataFrame 中 的 列 的 内 容 构建 了 一 个 placeholder; 
: Z 是 TensorFlow 添 加 方法 的 输出 张 量 (tf.add) ; 
- d 亿 是 新 的 DataFrame ， 它 把 z 张 量 逐 块 添加 到 df DataFrame 的 一 个 额外 的 列 中 。 


虽然 Zz 是 本 身 就 是 张 量 (如 前 面 的 输出 中 所 述 ) ， 但 是 为 了 使 我 们 能 够 使 用 TensorFlow 程 序 的 结果 ， 我 们 将 使 用 df2 
dataframe, df2.show () 的 输出 如 下 : 


| (2)Spark Jobs 


8.4.8 Blockwise reducing 操 作 示 例 


在 下 一 节 中 ， 我 们 将 介绍 如 何 使 用 blockwise reducing 操 作 。 具 体 来 说 ， 我 们 将 计算 字段 向 量 的 总 和 和 最 小 值 ， 使 用 行 块 进 
行 更 有 效 的 处 理 . 
构建 向 量 的 DataFrame 


首先 ， 我们 创建 一 个 同 量 的 单列 DataFrame: 


di Build a DataFrame of vectors 


data = [Row(y-[float(y), £loat(-y)]l) for y in range(10)] 
df = sqglContext.createDataFrame (data) 


df.show() 


输出 如 下 : 
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分 析 DataFrame 


我 们 需要 分 析 DataFrame 以 确定 其 形状 ( 即 向 量 的 维度 ) 。 例 如 ， 在 下 面 的 代码 片段 中 ， 我 们 对 df DataFrame 使 用 


tfs.print schema s: 


4 Print the information gathered by TensorFlow to check the content of 
the DataFrame 


tfs.print schema(df) 


4H Output 
root 
|-- y: array (nullable = true) double[?,?] 


注意 double[? ，? ]， 这 意味 着 TensorFlow 不 知道 向 量 的 维度 : 


4 Because the dataframe contains vectors, we need to analyze it 
4 first to find the dimensions of the vectors. 
df2 = tfs.analyze(df) 


# The information gathered by TF can be printed 
# to check the content: 
tfs.print schema (df2) 


## Output 
root 
|-- y: array (nullable = true) double[?,2] 


在 分 析 了 df2 DataFrame 之 后 ，TensorFlow 推 测 y 包 含 大 小 为 2 的 向 量 。 对 于 小 张 量 (mae) ，TensorFrames 通 常 推 
测 张 量 的 形状 ， 而 不 需要 初步 分 析 。 如 果 不 能 这 样 做 ,错误 消息 将 提示 你 需要 在 运行 DataFrame 前 先 运 行 tfs.analyze () 。 

计算 所 有 向 量 的 元 素 和 和 最 小 值 

现在 ， 我 们 来 分 析 df DataFrame 以 使 用 tf.reduce sum 和 tf.reduce_min 来 计算 所 有 辐 量 的 总 和 和 元 素 的 最 小 值 : 


- t£reduce sum: 计算 张 量 的 维度 上 的 元 素 之 和 ， flde, Je X€Xx-[D, 2, 1], [1, 2, 1], Jütf£reduce sum (x) ==>8。 有 关 更 


多 信息 ， 请 访问 : https//www.tensorflow.org/api docs/python/math ops/reduction£treduce, sum. 


: tf.reduce_min: 计算 张 量 的 维度 上 的 最 小 值 ， 例 如 ， 如 果 x=[[3，2，1]，[-1，2，1]] 则 tf.reduce_min (x) 2—»-1, € £42 &, 


请 访问 : https//www.tensorflow.org/api_docs/python/math_ops/reduction#reduce_min. 


以 下 代码 片段 允许 我 们 使 用 TensorFlow 执 行 有 效 的 元 素 缩减 ， 其 中 源 数据 位 于 DataFrame 中 : 


# Note: First, let's make a copy of the 'y' column. 
4 This is an inexpensive operation in Spark 2.0- 
Gs a dr2.gelecLidE2.v, dgdEZ2.vY.alxagi"mg')) 


i Execute the Tensor Graph 
with tf.Graph().as default() as g: 


4 The placeholders. 

# Note the special name that end with ' input': 
y input = tfs.block(df3, 'y', tf names"y input") 
z input = tfs.block(df3, 'z', tf names"z input") 
# Perform elementwise sum and minimum 
y = tf.reduce sum(y input, [0], name-'y') 
z = tf.reduce min(z input, [0], names'z') 


# The resulting dataframe 
(data sum, data min) = tfs.reduce blocks([y, zl, df3) 


# The finalresults are numpy arrays: 


print "Elementwise sum: $s and minimum: $s " $ (data sum, data min) 
## Output 
Elementwise sum: [ 45. -45.] and minimum: [ O. -9.] 


使 用 几 行 结合 TensorFrames 的 TensorFlow 人 代码， 我 们 可 以 获取 存储 在 df DataFrame 中 的 数据 ， 并 执行 Tensor Graph 来 获 
取 元 素 和 以 及 最 小 值 ， 再 将 数据 合并 回 到 DataFrame 中 并 (在 我 们 的 例子 中 ) 打印 出 最 终 值 。 


8.5 人 小结 


在 本 章 中 ， 我 们 回顾 了 神经 网 络 和 深度 学 习 的 基础 知识 ， 包 括 特征 工程 的 组 成 部 分 。 伴 随 着 深度 学 习 的 所 有 这 些 新 的 兴 
点 ， 我 们 介绍 了 TensorFlow 以 及 它 如 何 通 过 TensorFrames 与 Apache Spark 密 切合 作 。 


TensorFrames 是 一 个 强大 的 深度 学 习 工 具 ， 它 允许 数据 科学 家 和 工程 师 通 过 TensorFlow 使 用 存储 在 Spark DataFrame 中 的 
数据 。 这 人 允许 你 将 Apache Spark 的 功能 扩展 到 基于 神经 网 络 学 习 过 程 的 强大 的 深度 学 习 工具 集 。 为 了 帮助 你 继续 深度 学 习 之 旅 ， 
以 下 是 一 些 很 棒 的 TensorFlow 和 TensorFrames 资 源 : 


: TensotFlow: https:/ /www.tensorflow.org/ 

: TensorFlow | Get Started: https:/ /www.tensotflow.org/get. started/ 

: TensorFlow | Guides: https:/ /www.tensorflow.org/tutotials/ 

: Deep Learning on Databricks: https:/ /databricks.com/blog/2016/12/21 /deep-learning-on-databricks.html 
: TensorFrames (GitHub) : https://github.com/databricks/tensorframes 


: TensorFrames User Guide: https://github.com/databricks/tensorframes/wiki/'l'ensorFrames-uset-guide 


第 9 章 ”使 用 Blaze 实 现 混合 持久 化 


我 们 的 世界 是 复杂 的 ， 没 有 一 种 能 够 解决 所 有 问题 的 方法 。 同 样 ， 在 数据 的 世界 中 ， 我 们 也 无 法 使 用 一 种 技术 来 解决 所 有 问 


E 


如 今 ， 任 何 一 家 大 型 科技 公司 (以 某 种 形式 ) fsRiMapReduceBgzebEmBESESAUEETB (甚至 是 PB) 的 数据 。 另 一 方面 ， 
在 文档 类 型 数据 库 (如 MongoDB) FPE, R. H 展 和 更 新 有 关 产 品 的 信息 比 在 天 系 型 数据 库 中 更 容易 。 然 而 ， 在 天 系 型 数 
据 库 中 持久 化 的 交易 记录 有 助 于 后 期 的 数据 汇总 和 报告 。 


即使 是 这 些 信 单 的 例子 也 表明 解决 广泛 的 业务 问题 需要 及 用 不 同 的 技术 。 这 意味 着 ， 作 为 数据 库 经 理 、 数 据 科 学 家 或 数据 工 
呈 师 的 你 ， 如 果 要 用 易于 解决 问题 的 工具 来 解决 问题 ， 束 必须 分 别 学 习 所 有 的 这 些 技术 。 但 是 这 并 不 会 使 您 的 公司 变 得 敏捷 ， 反 
而 更 容易 出 销 ， 并 且 需 要 对 系统 进行 大 量 调整 和 黑客 操作 。 


9.1 z3éBlaze 


如 果 你 正在 使 用 Anaconda， 那 么 安 半 Blaze 是 很 轻松 的 。 你 只 需 人 在 CH 中 运行 以 下 命令 (如果 你 不 知道 什么 是 CLl， 请 参阅 额 
外 的 章节 ) : 


conda install blaze 


命令 执行 后 ， 你 将 看 到 类 似 于 以 下 屏幕 截图 的 屏幕 


Fetching package metadata 
Solving package specifications: 


Package plan for installation in environment /Users/drabast/anaconda: 


The following NEW packages will be INSTALLED: 
blaze: 8.18.1-py35 8 
Proceed ([y]/n)? y 


Linking packages ... 
[ COMPLETE MEIIIIIIDIDDIPDPDIPIDIPDIPIDIITPPIITDIITIITDIITP I DPI P PPDITITPITPTTPITDPITPITLSEEU. 


稍 后 我 们 将 使 用 Blaze 连 接 到 PostgresQL 和 MongoDB 数 据 库 ， 因 此 我 们 需要 安 半 其 他 一 些 Blaze 将 在 后 台 使 用 的 软件 包 . 


我 们 将 安装 SQL Alchemy 和 PyMongo， 它 们 都 是 Anaconda 的 一 部 分 : 


conda install sqlalchemy 


conda install pymongo 


现在 要 做 的 就 是 将 Blaze 本 身 导入 我 们 的 笔记 本 中 : 


import blaze as bl 


9.2. ”混合 持久 化 
Neal Ford 在 2006 年 推出 了 一 个 类 似 的 术语 ; 多 语言 编程。 他 用 它 来 说 明 一 个 事实 ， 即 没有 一 个 适合 所 有 解决 方案 的 东西 
并 主张 使 用 更 适合 特定 问题 的 多 种 编程 语言 混合 编程 . 


在 并 行 的 数据 世界 中 ， 任 何 希 望 保 持 竞 争 力 的 业务 都 需要 适应 一 系 询 技术 ， 使 其 能 够 在 最 短 的 时 间 内 解决 问题 ， 从 而 最 大 限 
度 地 降低 成 本 。 


在 Hadoop 文 件 中 存储 事务 数据 是 可 行 的 ， 但 没有 任何 意义 。 另 一 万 面 ， 使 用 关系 数据 库 官 理 系 统 (RDBMS) 来 处 理 PB 数 量 
的 互联 网 日 志 也 是 不 明智 的 。 这 些 工具 被 设计 成 解决 特定 类 型 的 任务 ;即使 可 以 被 选择 来 解决 其 他 问题 ， 调 整 工 具 的 成 本 也 是 巨 
大 的 。 这 等 同 于 试图 在 圆 孔 中 安 禾 一 个 方形 钉 。 


例如 ,考虑 一 个 在 线 销售 乐器 和 配件 的 公司 (在 商店 网 络 中 ) 。 在 高 层次 上 ， 为 了 成 功 企业 需要 解决 一 些 问题 : 
1. 吸 引 顾 客 到 其 商店 (虚拟 的 和 物理 的 ) 。 

2. 给 他 们 展示 相关 产品 (你 不 会 试图 向 钢琴 家 出 售 染 子 就 ， 你 会 吗 ! ? ) 

3 一 旦 他 们 决定 购买 ， 处 理 付款 和 组 织 运 输 。 

为 了 解决 这 些 问题 ， 公 司 可 能 会 从 用 于 解决 这 些 问题 的 许多 可 用 技术 中 进行 选择 : 


1. 将 所 有 产品 存储 在 基于 文档 的 数据 库 中 ， 如 MongoDB、Cassandra、DynamoDB 或 DocumentDB。 文 档 数 据 库 具有 多 种 
优势 : 灵活 的 模式 ,分 片 (将 更 大 的 数据 库 分 成 一 组 更 小 、 更 易于 管理 的 数据 库 ) ， 相 对 于 其 他 数据 库 的 高 可 用 性 和 复制 等 。 


2. 使 用 基于 图 形 的 数据 库 (如 Neo4j、Tinkerpop/Gremlin 或 GiaphFrames for Spark) 对 推荐 进行 建 模 : 这 些 数据 库 反 映 了 
客户 之 间 的 事实 和 抽象 关系 及 其 偏好 。 挖 扬 这 样 的 图 形 是 非常 宝贵 的 ， 并 且 可 以 为 客户 产生 更 加 合适 的 产品 。 


3. 为 了 搜索 ， 公 司 可 能 会 使 用 为 搜索 量 身 定制 的 解决 方案 ， 如 Apache Solr 或 ElasticSearch。 这 样 的 解决 万 案 提供 了 快速 、 市 
索引 的 文本 搜索 功能 。 


4 一 旦 产品 销售 ， 交 易 通常 具有 良好 的 结构 化 模式 (例如 产品 名 称 、 价 格 等 ) 。 为 了 存储 这 些 数据 (以 及 之 后 的 流程 和 报 


使 用 混合 持久 化 ， 公 司 忌 是 可 以 为 正确 的 工作 选择 正确 的 工具 ， 而 不 是 试图 强制 使 用 单一 拉 术 来 解决 所 有 问题 。 


正如 我 们 将 看 到 的 ，Blaze 会 抽象 出 这 些 撤 术 ， 并 引入 一 个 简单 的 API 来 处 理 。 所 以 你 不 必 学 习 要 使 用 的 每 种 扩 术 的 API。 实 
质 上 ， 这 是 一 个 混合 持久 化 的 很 好 的 工作 实例 . 


(Y : 
一 38 A http:/ /www.slideshate.net/Couchbase/couchbase-at-ebay-2014 3X, Zr http: / /www.slideshate.net/bijoor1 /case-study- 


polyglot-persistence-in-pharmaceutical-industry 来 看 一 下 别人 是 怎么 做 到 这 一 点 的 。 


9.3 ”抽象 数据 


Blaze 可 以 抽象 出 许多 不 同 的 数据 结构 ， 并 暴露 出 一 个 简单 易 用 的 API。 这 有 助 于 获得 一 致 的 行为 ， 并 减少 学 习 多 个 接口 来 处 
理 数 据 的 需要 。 如 果 你 了 解 pandas， 那 真 的 没有 什么 可 以 学 习 的 了 ， 因 为 语法 的 帮 异 是 非常 细微 的 。 我 们 将 通过 一 些 例子 来 说 明 


这 一 点 。 


9.3.1 使 用 NumPy 数 组 


将 从 NumpPy 数 组 中 获取 的 数据 导入 到 Blaze 的 DataShape 对 象 中 是 非常 容易 的 。 首 先 ， 我 们 创建 一 个 简单 的 NumPy 数 组 : 我 
们 先 加 载 NYumPy， 然 后 创建 一 个 有 两 行 和 三 列 的 矩阵 : 


import numpy as np 
simpleArray = np.array([ 
[1,2,3], 
[4,5,6] 
] ) 


SUCER YS Y — 13968, 3l THIVAFBBlazeB9DataShape£àát4iti e e: 
simpleData np = bl.Data(simpleArray) 
束 是 这 样 ! 够 简单 。 

想 要 查看 里 面 的 结构 ， 你 可 以 使 用 .peek () 方法 : 

simpleData np.peek() 


你 应 该 会 看 到 类 似 于 以 下 截图 所 示 的 输出 : 


Out[4]: array([[l, 2, 3]; 


[4, 5, 6]]) 


你 也 可 以 使 用 (对 于 那些 熟悉 pandasi 语 法 的 人 ) .head (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 。 


peek () 和 .head (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach_ebook/uncompressed/17232/OEBPS/Text/...) 之 间 的 区 别 在 
于 .head (http:/ /www.hzcoutse.com/resoutce/readBook?path- /opentesources/teach. ebook /uncompressed/17232/OEBPS/Text/...) 允许 


指定 行 数 作 为 其 唯一 的 参数 ， 而 .peek O 不 允许 并 将 始终 打印 前 10 名 记录 。 


如 果 要 检索 DataShape 的 第 一 列 ， 你 可 以 使 用 索引 : 
simpleData np [0] 


你 应 访 看 到 如 下 所 示 的 一 个 表 : 


另 一 方面 ， 如 果 你 想 要 检索 一 行 ， 那 么 你 所 要 做 的 ( 像 在 NumPy 中 ) museetlüyDataShape: 
simpleData np.TÍO0| 


你 将 获得 的 内 容 如 下 图 所 示 : 


请 注意 ， 列 的 名 称 为 None。DataSshape 就 像 pandas 的 DataFrame 一 样 ， 支 持 命名 列 。 因 此 ， 让 我 们 来 指定 我 们 的 字段 的 名 
WR: 


simpleData np = bl.Data(simpleArray, fieldsz['a', 'b', 'c']) 


现在 ， 你 可 以 简单 地 通过 调用 列 名 来 检 款 数据 : 
simpleData npl'b'] 


你 将 会 得 到 下 面 的 输出 结果 : 


你 可 以 看 到， 定义 字段 转 置 了 NumPy 数 组 ， 现 在 ， 数 组 的 每 个 元 素 形 成 了 一 行 ， 这 与 我 们 刚 开 始 创 建 simpleData_np 时 不 
同 。 


9.3.2 ”使 用 pandasHDataFrame 
由 于 pandas 的 DataFrame 内 部 使 用 NumPy 数 据 结构 ， 所 以 将 DataFrame 转 换 为 DataShape 是 非常 简单 的 。 
首先 ， 我们 来 创建 一 个 简单 的 DataFrame。 我 们 从 导入 pandas 开 始 : 
import pandas as pd 
接 下 来 ， 我 们 创建 一 个 DataFrame: 


simpleDf = pd.DataFrame(| 
[1,2,3], 
[4,5,6] 


], columnss['a','b','c'])J 


然后 我 们 将 其 转换 为 DataShape: 

simpleData df = bl.Data(simpleDf) 
你 可 以 使 用 与 从 NumPy 数 组 创建 的 DataShape 中 检索 数据 相同 的 方式 来 检索 数据 。 可 以 使 用 以 下 命令 : 
simpleData df['a'] 


然后 ， 它 将 产生 以 下 输出 : 


9.3.3 ”使 用 文件 


可 以 直接 从 .csv 文 件 创 建 Datashape 对 象 。 在 这 个 例子 中 ， 我 们 将 使 用 一 个 数据 集 ， 其 中 包含 在 马里 三 州 蒙哥马利 县 友 生 的 
404536 次 交通 违章 。 


一 我们 在 2016 年 8 月 23 日 从 https://catalog,data.gov/dataset/traffic-violations-56dda 下 载 了 数据 。 该 数据 集 每 日 更 新 ， 所 以 如 果 
你 从 其 他 日 期 下 载 这 个 数据 集 ， 交 通 违章 的 数据 可 能 跟 我 们 的 不 同 。 


我 们 将 数据 集 存储 在 本 地 的 http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/../Data 文 件 夹 中 。 但 是 ,我们 上 略微 修改 了 数据 集 ， 


所 以 我 们 可 以 将 其 存储 在 MongoDB 中 ， 因 为 如 果 用 原始 的 带 有 日 期 列 的 数据 格式 ， 从 MongoDB 读 取 数 据 将 会 导致 错误 。 我 们 
向 Blaze 提 交 了 一 个 bug 来 要 求 他 们 解决 这 个 问题 (https://github.com/blaze/blaze/issues/1580) : 


import odo 
traffic = bl.Data('../Data/TrafficViolations.csv!') 


如 果 你 不 知道 数据 集中 的 列 名 ， 你 可 以 从 DataShape 中 获取 这 些 列 。 要 获取 所 有 字段 的 列表 ， 可 以 使 用 以 下 命令 : 


print (traffic.fields) 


['Stop month', 'Stop day', 'Stop year', 'Stop hr', 'Stop min', 'Sto 
p sec', 'Agency', 'SubAgency', 'Description', 'Location', 'Latitude 
', Longitude', 'Accident', 'Belts', 'Personal Injury', 'Property D 


amage', 'Fatal', 'Commercial License', 'HAZMAT', 'Commercial Vehicl 


e', 'Alcohol', 'Work Zone', 'State', 'VehicleType', 'Year', 'Make', 
'Model', 'Color', 'Violation Type', 'Charge', 'Article', 'Contribut 
ed To Accident', 'Race', 'Gender', 'Driver City', 'Driver State', ' 
DL State', 'Arrest Type', 'Geolocation'] 


一 熟悉 pandas 的 人 很 容易 认识 到 .fields 和 .columns 属 性 之 间 的 相似 性 ， 因 为 它们 的 工作 方式 基本 相同 。 它 们 都 返回 列 的 列表 


(在 pandas 的 DataFrame 的 情况 下 ) 或 字段 列表 ， 这 在 Blaze DataShape 中 被 称 作 列 。 
Blaze 还 可 以 直接 从 GZipped 压 缩 文件 中 读 取 ， 从 而 节省 空间 : 


Eraffic ga = bl.Datal'../Data/TraflicViolabrzons,.co8v.gz!) 


为 了 验证 我 们 得 到 完全 相同 的 数据 ， 我 们 从 每 个 结构 中 检索 前 两 个 记录 。 你 可 以 通过 以 下 方法 调用 : 


traffic.head(2) 
也 可 以 选择 这 个 万 法 : 
traffic gz.head (2) 


它们 产生 相同 的 结果 (以 下 列 使 用 简称 ) : 


Out [17]: | |Stop month. Stop day Stop year ar | Stop hr [Stop min Stop min Stop sec Agency 


add E DLE 


2015 23 


然而 我 们 很 容易 注意 到 ， 由 于 Blaze 需 要 解压 缩 数 据 ， 因 此 从 归档 文件 检索 数据 需要 更 多 的 时 间 。 


你 也 可 以 一 次 从 多 个 文件 中 读 取 ， 并 创建 一 个 大 的 数据 集 。 为 了 说 明 这 一 点 ， 我 们 已 经 将 原始 数据 集 根据 违章 的 年 份 拆 分 为 
四 个 GZipped 数 据 集 (这 些 数据 集 存储 在 http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/../Data/Years 文 件 夹 中 ) , 
Blaze 使 用 odo 来 处 理 以 各 种 格式 保存 的 DataShape。 为 了 按 年 保存 交通 违章 的 数据 ， 你 可 以 这 样 调用 odo: 


import odo 


for year in traffic.Stop year.distinct().sort(): 
odo.odo(traffic[traffic.Stop year == year], 


./Data/Years/TrafficViolations {0}.csv.gz'\ 
.format (year)) 


上 述 指令 将 数据 保存 到 GZip 压 缩 文 件 中 ， 我 们 也 可 以 将 其 保存 为 前 面 提 到 的 任何 格式 .。 


.odo (http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 的 第 一 个 参数 指定 输入 对 象 (在 我 们 的 例子 


中 ， 在 2013 年 友 生 交通 违章 的 Datashape) ， 第 二 个 参数 是 输出 对 象 ， 束 是 我 们 要 保存 的 数据 的 文件 路 径 。 我 们 要 知道 ， 存 储 数 
据 的 形式 不 仅 限 于 文件 。 


要 从 多 个 文件 读 取 ， 您 可 以 使 用 星 号 字符 *: 


traffic multiple = bl.Data( 


./Data/Years/TrafficViolations *.csv.gz!') 
traffic multiple.head(í(2) 


上 述 代码 卢 段 将 再 次 产生 一 个 玖 悉 的 表格 : 


nep onth 


Nn 
AM 


Blaze 读 取 功 能 不 限于 .csv 或 GZip 文 件 ， 你 可 以 从 JSON 或 Excel 文 件 〈.xls 和 .xlsx) ，HDFS 或 bcolz 格 式 的 文件 读 取 数 据 。 


EM 了 解 有 关 bcolz 格 式 的 更 多 信息 ， 请 访问 https://github.com/Blosc/bcolz 查 看 其 文档 。 


9.3.4 ”使 用 数据 库 


Blaze 也 可 以 轻松 地 从 类 似 PostgreSQL 或 SQLite 这 种 SQL 数据 库 中 读 取 。 里 然 SQLite 通 常 是 本 地 数据 库 ， 但 PostgreSQL 可 以 
在 本 地 或 服务 器 上 运行 。 


如 前 所 述 ，Blaze 在 后 台 使 用 odo 来 处 理 与 数据 库 的 通信 。 


> Ble 的 必 备 条 件 之 一 ， 它 随 Blaze 的 安装 包 一 起 安装 。 在 https://github.com/blaze/odo 可 以 获取 odo 的 具体 信息 。 
为 了 执行 本 节 中 的 代码 ， 你 需要 两 样 东 西 : 一 个 在 本 地 运行 的 PostgreSQL 数 据 库 实例 和 一 个 在 本 地 运行 的 MongoDB 数 据 
库 。 


q XA PostgreSQL, | 35 AA http:/ /www.postegresql.org/download/ 下载 软件 包 ， 并 按照 在 那里 找到 的 相应 操作 系统 的 安装 说 明 
进行 操作 。 要 安装 MongoDB， 请 访问 https://www.mongodb.org/downloads 并 下 载 相应 安装 包 ; 安装 说 明 可 以 
在 http://docs.mongodb.org/manual/installation/ 找 到 。 


在 继续 之 前 ， 我 们 假设 你 已 经 有 一 个 PostgreSQL 数 据 库 运 行 在 http://localhost: 5432/ 和 MongoDB 数 据 库 运行 
在 http://localhost: 27017, 


我 们 已 经 将 交通 违章 的 数据 加 载 到 这 两 个 数据 库 ， 并 将 它们 存储 在 traffic 表 (PostgreSQL) 或 traffic 集 (MongoDB) R. 


ER 果 你 不 知道 如 何 上 传 你 的 数据 ， 我 已 经 在 我 的 另 一 本 书 https://www.packtpub.com/big-data-and-business- 
intelligence/practical-data-analysis-cookbook 中 解释 过 了 。 


与 天 系 型 数据库 进行 交互 


现在 让 我 们 从 PostgresQl 数 据 库 中 读 取 数据 。 用 于 访问 PostgreSQL 数 据 库 的 统一 资源 标识 符 (URI) 使 用 以 下 语法 


postgresql: //«user name»: «password» Q «server»: «port»/«database»: : «table», 


要 读 取 PostgreSQL 中 的 数据 ， 你 只 需 用 .Data (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 将 URI 包 起 来 就 行 了 ，Blaze 将 负责 其 余部 分 : 


traffic pagli = bl-Datai 
'postgresql://{0}:{1}@localhost :5432/drabast::traffic'\ 


.format('«your username»', '«your password>') 


我 们 使 用 Python 的 .format (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 来 用 适当 的 数据 填充 字符 串 。 


3 将 上 述 代码 中 的 用 户 信息 替换 成 你 的 用 户 信息 来 访问 上 一 个 示例 中 的 PostgreSQL 数 据 库 。 如 果 你 想 了 解 更 多 关 
于 .format (http:/ /www.hzcoutse.com/resoutce/readBook?path- / openresources/teach, ebook/uncomptressed/17232/OEBPS/Text/...) Zr 


法 的 信息 ， 可 以 查看 Python 3.53: https://docs.python.org/3/library /string.html?* format-stting-syntax» 


将 数据 输出 到 PostgreSQL 或 SQLite 数 据 库 是 非常 容易 的 。 在 下 面 的 例子 中 ， 我们 将 输出 制造 于 2016 的 汽车 的 交通 违章 到 
PostgreSQL 和 SQLite 数 据 库 中 。 如 前 所 述 ， 我 们 将 使 用 odo 来 管理 这 个 转换 : 


traffic 2016 = traffic psql[traffic psql['Year'] == 2016] 
4 Drop commands 
# odo.drop('sqlite:///traffic local.sqlite::traffic2016') 


# odo.drop('postgresql://[0):([1]091ocalhost:5432/drabast::traffic'WN 

.format('«your username»', '«your password»!')) 

H Save to SQLite 

odo.odo(traff:se 2016, 

'sqlite:///traffic local.sqlite::traffic2016') 

# Save to PostgreSQL 

Odo.odo(trarFric 2015, 
'postgresqgl://[(0)]:(1)elocalhost:5432/drabast::traffic'W 
.format('«your username»', '«your password»')) 


为 了 过 滤 数 据 我 使 用 了 类 似 于 pandas 的 方式 。 我 们 有 效 地 选择 了 Year 列 (第 一 行 的 traffic_ psql['Year'] 部 分 ) ， 并 通过 检查 
该 列 中 的 每 个 记录 是 人 否 等 于 2016 来 创建 一 个 布尔 标志 。 通 过 使 用 这 种 真 值 向 量 来 索引 traffic_psql 对 象 ， 然 后 仪 提 取 相 应 值 等 于 
True 的 记录 。 


如 果 你 的 数据 库 中 已 经 有 traffic2016 表 ， 那 么 两 个 注释 掉 的 行 应 该 被 取消 注释 ， 否 则 odo 会 将 数据 附加 到 表 的 未 尾 。 


SQLite 的 URI 与 PostgreSQL 的 URI 略 有 不 同 。 它 使 用 以 下 语法 sqlite: //</relative/path/to/db.sqlite>: : 


«table name», 


从 SQLite 数 据 库 读 取 数 据 现 在 对 你 来 说 应 该 是 很 简单 的 了 : 


traffic mongo - bl.Data( 
'mongodb://localhost:27017/packt::traffic' 


与 MongoDB 进 行 交互 


MongoDB 多 年 来 一 直 受 到 广泛 的 欢迎 。 它 是 一 个 简单 、 快 速 、 灵 活 的 基于 文档 的 数据 库 。 该 数据 库 是 所 有 全 栈 开 发 人 员 使 
用 MEAN .js 堆栈 的 一 个 即 用 存储 解决 方案 : M 代 表 Mongo (参见 http://meanjs.org) 。 


Blaze 意 味 着 无 论 你 的 数据 源 如 何 ， 你 都 可 以 以 一 种 非常 熟悉 的 方式 工作 。 因 此 MongoDB 的 读 取 与 PostgreSQl 或 SQLite 数 
据 库 的 读 取 非 常 相似 : 


traffic mongo = bl.Data( 
'mongodb://localhost:27017/packt::traffic' 


9.4 ”数据 操作 


我 们 已 经 介绍 了 一 些 用 于 DataShape 的 最 常用 的 万 法 (例如 .peek () ) ， 以 及 基于 列 值 过 滤 数 据 的 万 法 。Blaze 已 经 实现 了 
许多 方法 ， 这 使 任何 数据 的 处 理 都 非常 容易 。 


在 本 节 中 ， 我 们 将 回顾 一 系列 其 他 党 用 的 处 理 数据 的 途径 以 及 与 之 相关 的 方法。 对 于 那些 使 用 pandas 或 SQL 的 人 ， 我们 将 提 
供 等 价 的 相应 的 语法 。 


94.1 paly) 
有 两 种 访问 列 的 方式 : 每 次 访问 它们 获得 一 个 列 ， 就 像 一 个 DataShape 属 性 一 样 : 
traffic.Year.head (2) 


上 述 脚 本 生成 以 下 输出 : 


你 还 可 以 使 用 多 许 一 次 选择 多 个 列 的 索引 : 


(traffic[['Location', 'Year', 'Accident', 'Fatal', 'Alcohol']] 


.heaad(2)) 
这 将 生成 以 下 输出 : 


| [Location |Year |Accidont|Fatal|Alcohol 


sme pee eje - 
1 CONNECTICUT AT METROPOLITAN AVE | 2003.0 No Im [No — 


上 述 语 法 对 于 pandas 的 DataFrame 是 一 样 的 。 对 于 那些 不 熟悉 Python 和 pandas API 的 人 ， 请 注意 以 下 三 点 : 
1. 要 指定 多 个 询 ， 你 需要 将 它们 包含 在 另 一 个 列表 中 : 注意 双 括 号 [[ 和 ]]。 


2. 如 果 所 有 方法 的 链 一 行 中 放 不 下 (或 者 你 想 要 打破 链 以 获得 更 好 的 可 读 性 ) ， 则 有 两 个 选择 : 将 整个 方法 链 放 在 括号 
(http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 中 ， 其 中 


http:;//www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/... 是 所 有 方法 组 成 的 链 。 或 者 ， 在 开始 新 的 一 行 之 


前 ,将 反 和 斜 杠 字符 \ 放 在 链 中 每 一 行 的 末尾。 我 们 更 喜欢 后 者 ， 并 将 在 现在 的 例子 中 使 用 。 


3. 请 注意 ， 等 效 的 SQL 代码 将 是 : 


SELECT * 
FROM traffic 
LIMIT 2 


94.2 符号 转换 


Blaze 的 美丽 来 自 于 它 可 以 象征 性 地 运作 的 事实 。 这 意味 着 你 可 以 在 数据 上 指定 转换 、 过 滤器 或 其 他 操作 ， 并 将 其 存储 为 对 
象 。 然 后 ， 你 可 以 使 用 几乎 任何 形式 的 符合 原始 模式 的 数据 来 提供 此 类 对 象 ， 而 Blaze 将 返回 已 转换 的 数据 。 


例如 ， 让 我 们 选择 2013 年 上 生 的 所 有 违章 行为 ， 并 且 只 返回 “Arrest Type”，“Color” 和 “Charge” 列 。 首 先 ， 如 果 我 
们 无 法 从 已 经 存在 的 对 象 映射 出 模式 ， 则 必须 手动 指定 模式 。 为 此 ， 我 们 将 使 
用 .symbol (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 来 实现 ; 该 方法 的 第 一 个 参数 指定 了 转换 的 
符号 名 称 (我 们 硕 望 保持 与 对 象 的 名 称 相同 ， 但 可 以 是 任何 内 容 ) ， 第 二 个 参数 是 一 个 长 字符 串 ， 用 于 指定 <column_name>: 
«column type> 方 法 ， 用 逗号 分 隅 : 

schema example = bl.symbol('schema exampl', 
'{id: int, name: string|') 


现在 ， 你 可 以 使 用 schema_example 对 象 并 指定 一 些 转换 。 但 是 ， 由 于 我 们 已 经 有 一 个 现 有 的 traffic 数 据 集 ， 我 们 可 以 通过 
使 用 traffic.dshape 并 指定 我 们 的 转换 模式 : 


traffic s = bl.symbol('traffic', traffic.dshape) 
traffic 2013 = traffic s[traffic s['Stop year'] == 2013] | 
['Stop year', 'Arrest Type','Color', 'Charge!] 


为 了 介绍 它 的 工作 原理 ， 让 我 们 将 原始 数据 集 读 入 pandas 的 DataFrame: 


traffic pd = pd.read csv('../Data/TrafficViolations.csv') 


读 取 之 后 ， 我 们 将 数据 集 直 接 传递 到 traffic_ 2013 对 象 ， 并 使 用 Blaze 
的 .compute (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 执行 计算 ; 该 方法 的 第 一 个 参数 指定 了 转换 
对 象 (我 们 的 是 traffic_ 2013) ， 第 二 个 参数 是 要 执行 转换 的 数据 : 


bl.compute(traffic 2013, traffic pd).head(2) 


以 下 是 上 述 代码 片段 的 输出 : 


01: | _ Jstop year Arrest Type 


73 2013 A - Marked Patrol “| SILVER | 13-409(b) 


215 2013 B - Unmarked Patrol. BLACK | 21-309(b) 


你 还 可 以 传递 表 的 列表 或 NumPy 数 组 的 列表 。 在 这 里 ， 我 们 使 用 DataFrame 的 .values 属 性 访问 构成 DataFrame 的 NumPy 数 
组 的 基础 列表 : 


bl.compute(traffic 2013, traffic pd.values) [0:2] 
这 上段 代码 将 精确 地 产生 我 们 期 望 的 结果 : 


[2013 'A - Marked Patrol' 'SILVER' '13-409(b)'] 
[2013 'B - Unmarked Patrol' 'BLACK  '21-309(b)'] 


9.4.3 人 多 的 操作 


Blaze 多 许 在 数字 列 上 进行 简单 的 数学 运算 。 数 据 集 中 引用 的 所 有 交通 违章 及 生 在 2013 年 至 2016 年 乙 间 。 你 可 以 使 
用 .distinct () 方法 获取 stop_year 列 的 所 有 不 同 值 。.sort () 方法 按照 升序 对 结果 进行 排序 : 


bEratricl' Stop year'].distinebi.-sSorEtt) 


上 述 代码 生成 以 下 输出 表 : 


pandas 的 等 效 语 法 如 下 : 


traffic['Stop year'].unigue(í().sort() 


对 于 SQL， 请 使 用 以 下 代码 : 
SELECT DISTINCT Stop year 
FROM traffic 


你 还 可 以 对 列 进行 一 些 数学 转换 /计算 。 由 于 所 有 交通 违章 发 生 在 2000 年 以 后 ， 我 们 可 以 从 Stop year 列 减 去 2000， 而 不 会 失 
去 任何 准确 性 : 


traffic['Stop year'].head(2) - 2000 


这 是 你 应 该 得 到 的 返回 结果 : 


相同 的 效果 可 以 从 pandas 的 DataFrame 中 用 相同 语法 获得 (假设 traffic 是 pandas DataFrame 的 类 型 ) 。 对 于 SQL， 等 价 的 
代码 是 : 


SELECT Stop year - 2000 AS Stop year 
FROM traffic 


然而 ， 如 果 你 想 做 一 些 更 复杂 的 数学 运算 (例如 log 或 pow) ， 那 么 你 首先 需要 使 用 Blaze 提 供 的 一 个 操作 〈 即 在 后 台 将 你 的 
命令 转换 成 NumPy、math 或 者 pandas 的 一 个 合适 的 方法 ) 。 


例如 ， 如 果 要 对 Stop_year 进 行 日 志 转 换 ， 则 需要 使 用 以 下 代码 : 


bl.log(traffic['Stop year']).head(2) 


这 将 产生 以 下 输出 : 


Out[37]: 


9.4.4 ENSUE 


还 可 以 使 用 一 些 降 阶 方法 ， 例 如 .mean () (计算 平均 值 ) .std (计算 标准 偏差 ) 或 .max () (从 列表 中 返回 最 大 值 ) 。 
执行 以 下 代码 : 


traffic['Stop year']|.max() 


将 返回 以 下 输出 : 


Out[38]: 2016 


如 果 你 有 一 个 pandas DataFrame， 你 可 以 使 用 相同 的 语法 。 而 对 于 SQL 则 可 以 使 用 以 下 代码 : 


SELECT MAX (Stop year) AS Stop year max 
FROM traffic 


为 数据 集 添加 更 多 列 也 很 容易 。 比 如 说 你 想 计算 违规 友 生 时 的 汽车 车 龄 (以 年 数 表示 ) 。 首 先 ， 你 将 设置 Stop_year 并 减 去 制 
造 的 年 份 。 


在 下 面 的 代码 片段 中 ，.transform (http://www.hzcourse.com/resource/readBook? 


pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/..) 方法 的 第 一 个 参数 是 DataShape， 要 进行 转 
换 ， 另 一 个 将 是 转换 列表 。 


traffic s bl.transform(traffic, 
Age of car = traffic.Stop year - traffic.Year) 
traffic.head(2) 


在 .transform (http://www.hzcourse.com/resource/readBook? 
path= /openresources/teach. ebook /uncompressed/17232/OEBPS/Text/...) 方法 的 源 代 码 中 ， 这 样 的 列表 将 被 表示 为 *atgs， 因 为 你 可 
以 一 次 指定 要 创建 的 多 个 列 。 任 何方 法 的 *args 参 数 都 会 占用 任意 数量 的 后 续 参 数 ， 并 将 其 视 为 列表 。 


上 述 代 码 将 生成 下 表 : 


Out[9]: 


pandas 等 效 操作 可 通过 下 面 的 代码 来 实现 : 


traffic|['Age of car'] = traffic.apply( 
lambda row: row.Stop year - row.Year, 


axis - 1 


对 于 SQL， 你 可 以 使 用 以 下 代码 : 


SELECT * 
, Stop year - Year AS Age of car 
FROM traffic 


如 果 你 想 计 算 涉及 造成 致命 结果 的 交通 违章 的 汽车 的 平均 车 龄 并 计算 出 现 次 数 ， 则 可 以 使 
用 .by (http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 操作 执行 group by 操作 : 


bDLl.byitrartfic|'BEatal'], 
Fatal AvgAge-traffic.Age of car.mean(), 
Fatal Count -traffic.Age of car.count() 


.by (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 的 第 一 个 参数 指定 了 要 执行 聚合 的 DataShape 
的 列 ， 之 后 是 我 们 要 获取 的 一 系列 聚合 。 在 本 例 中 ， 我 们 选择 Age_of_car 列 ， 并 计算 该 列 的 平均 值 和 对 应 于 每 个 值 “Fatal” 列 为 


真 的 行 数 。 


上 述 脚本 生成 以 下 聚合 结果 : 


Out[40]: 


对 于 pandas， 等 效 代码 如 下 : 


traffic\ 
.groupby('Fatal')['Age of car']\ 
.agg (| 
'Fatal AvgAge': np.mean, 
"Fatal Count:  np.count nonzero 


j) 


对 于 SQL， 代 码 将 如 下 所 示 : 


SELECT Fatal 
, AVG(Age of car) AS Fatal AvgAge 
, COUNT (Age of car) AS Fatal Count 
FROM traffic 
GROUP BY Fatal 


9.4.5 连接 


A "^ DataShapeitfTZEBEUORHRÍIBIERRS, 73 f AAE ra, ESESTHISIBUZSR RI LARBAR ISI AGAS, 1S3 AIRES 
先 选 择 违章 类 型 (violation 对 象 ) 和 涉及 安全 市 (belts 对 象 ) 的 所 有 交通 违章 行为 : 


violation = trafrficl 

['Stop month','Stop day','Stop year!, 

'Stop hr','Stop min','Stop sec','Violation Type' jj 
belts = trafficl 

['Stop month','Stop day','Stop year', 

'Stop hr','Stop min','Stop sec','Belts']l 


现在 我 们 通过 6 个 时 间 日 期 把 这 两 个 对 象 连接 起 来 。 


KA 


一 如 果 我 们 只 是 简单 地 选择 两 个 列 : Violation_type 和 Belts， 那 我 们 一 次 就 可 以 获得 相同 的 效果 。 但 是 ， 这 个 例子 是 展 


示 .join (http://www.hzcourse.com/resource/readBook?path=/openresources/teach_ebook/uncompressed/17232/OEBPS/Text/...) 方法 
的 机 制 ， 所 以 请 理解 一 下 我 们 。 


join (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 的 第 一 个 参数 是 我 们 要 加 入 连接 的 第 一 个 
Datashape， 第 二 个 参数 是 第 二 个 Datashape， 而 第 三 个 参数 可 以 是 单个 列 或 列 的 列表 ， 用 于 执行 连接 : 
violation belts = bl.join(violation, belts, 
['Stop month','Stop day','Stop year!, 
'Stop hr','Stop min','Stop sec']) 


我 们 拥有 了 完整 的 数据 集 之 后 ， 让 我 们 来 看 看 有 多 少 交 通 违 草 涉及 到 安全 市 ， 并 对 司机 做 出 了 什么 样 的 处 罚 : 


bl.by(violation belts[['Violation Type', 'Belts']l, 
Violation countszviolation belts.Belts.count() 
).sort('Violation count', ascending-False) 


以 下 是 上 一 个 脚本 的 输出 : 


Out[43]: 四 Violation Type | Belts | Violation count 
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pandas 也 可 以 使 用 以 下 代码 来 获取 相同 的 结果 : 


violation.merge (belts, 
onz['Stop month','Stop day','Stop year!', 
'Stop hr','Stop min','Stop sec']) ^ 
.groupby(['Violation type','Belts']) ^ 


agg (1 

'Violation count': np.count nonzero 
JN 
.Sort('Violation count', ascending-False) 


如 果 是 SQL 你 将 使 用 以 下 代码 片段 : 


SELECT innerQuery.* 
FROM ( 
SELECT a.Violation type 
, b.Belts 
, COUNT() AS Violation count 
FROM violation AS a 
INNER JOIN belts AS b 
ON a.Stop month - b.Stop month 
AND a.Stop day = b.Stop day 
AND a.Stop year - b.Stop year 
AND a.Stop hr = b.Stop hr 
a 


AND a.Stop min - b.Stop min 


AND a.Stop sec - b.Stop sec 
GROUP BY Violation type 
, Belts 
) AS innerQuery 
ORDER BY Violation count DESC 


9.5 小 结 


本 章 介绍 的 概念 只 是 使 用 Blaze 的 开始 。 还 有 许多 其 他 的 万 法 和 可 连接 的 数据 源 可 以 使 用 。 你 可 以 以 此 为 起 点 ， 构 建 你 对 混合 
持久 化 的 理解 。 


但 是 请 注意 ， 在 这 几 天 中 提 到 的 本 章 中 大 部 分 概念 之 所 以 都 可 以 在 Spark 内 部 实现 ， 是 因为 你 可 以 直接 在 Spark 中 使 用 
SQLAIchemy 来 轻松 处 理 各 种 数据 源 。 这 样 做 的 好 处 是 ， 尽 管 学 习 SQLAIchemy 的 API 会 需要 初始 投资 ， 但 是 将 返回 的 数据 存储 在 
Spark DataFrame 中 ， 你 将 可 以 访问 Pyspark 提 供 的 所 有 内 容 。 但 是 这 绝对 不 意味 着 永远 不 要 使 用 Blaze: 像 往常 一 样 ， 选 择 权 在 
你 手中 。 


在 下 一 章 中 ， 你 将 了 解 流 媒 体 以 及 如 何 使 用 Spark 来 做 到 这 一 点 。 最 近 流 媒体 已 成 为 越 来 越 重要 的 话题 ， 就 像 每 天 (2016 
fg) 一 样 ， 世 界 产生 大 约 2.5EB 的 数据 (数据 来 源 : http;//www.northeastern.edu/levelblog/2016/05/13/how-much-data- 
produced-every-day/) 需要 锌 获取、 处理 和 分 析 。 


第 10 草 ”结构 化 流 


本 章 将 初步 地 介绍 Spark Streaming 背 后 的 概念 ， 以 及 结构 化 流 (Structured Streaming) 是 如 何 演变 而 来 的 。 结 构 化 流 的 
重要 的 一 点 是 它 使 用 了 Spark DataFrame。 这 种 样式 的 转变 将 使 得 Python 开 发 人 员 更 易于 使 用 Spark Streaming. 


请 注意 ， 在 本 章 的 初始 部 分 ， 示 例 代 码 使 用 的 是 Scala， 因 为 大 多 数 Spark Streaming 代 码 是 这 么 写 的 。 当 开始 使 用 结构 化 流 
BJ, 我们 将 使 用 Python 示 例 |。 


10.2 为 什么 需要 Spark Streaming 


Tathagata Das 是 Apache Spark 项 目的 贡献 者 及 管理 委员 会 (PMC) 的 成 员 ，Spark Streaming 的 主要 开 友 者 ， 他 曾 在 
Datanami 文 章 《Spark Streaming: What is It and Who’ s Using it》 中 提 到 的 对 streaming 有 商业 需求 
(https://www.datanami.com/2015/11/30/spark-streaming-what-is-it-and-whos-using-it/) 。 随 着 在 线 交 易 和 社交 媒体 
以 及 传感器 和 设备 的 普及 ， 很 多 公司 正在 以 更 快 的 速度 产生 和 处 理 更 多 的 数据 。 


开 友 有 规模 的 、 实 时 的 可 实现 的 可 预测 的 能 力 ， 为 这 些 企业 提供 了 竞争 优势 。 无 论 你 是 在 检测 欺诈 性 的 交易 ， 提 供 传感器 异 
党 的 实时 检测 ， 还 是 对 下 一 个 病毒 性 传播 的 推 文 做 出 反应 ， 流 分 析 在 数据 科学 家 和 和 数据 工程 师 的 工具 箱 中 变 得 日 益 重 要 。 


Spark Streaming 正 在 迅速 被 及 用， 原因 是 Apache Spark 在 同一 框架 内 统一 了 所 有 这 些 不 同 的 数据 处 理 沁 例 (通过 ML 和 
MLlib 的 机 器 学 习 、Spark SQL 和 Streaming) 。 因 此 ， 你 可 以 从 培训 机 器 学 习 模型 (ML 或 MLlib) 到 使 用 这 些 模型 
(Streaming) 评测 数据 ， 并 使 用 你 最 喜爱 的 BI 工具 (SQL) 执行 分 析 ， 所 有 这 些 都 在 同一 框架 内 。 包 括 Uber、Netflix 和 
Pinterest 在 内 的 公司 经 常 展示 Spark streaming 的 应 用 范例 : 


: How Uber Uses Spark and Hadoop to Optimize Customer Experience, https://www.datanami.com/2015/10/05/how-uber-uses- 


spark-and-hadoop-to-optimize-customer-expetience / ; 
: Spark and Spark Streaming at Netflix, https:/ /spark-summit.org/2015/events/spark-and-spark-streaming-at-netflix/ ; 
: Can Spark Streaming survive Chaos Monkey, http:/ /techblog.netflix.com/2015/03/can-spark-streaming-sutvive-chaos-monkey.html ; 
: Real-time analytics at Pinterest, https://engineering.pinterest.com/blog/real-time-analytics-pintetesto 
目前 ， 围 绕 Spark Streaming 有 四 种 广泛 的 场景 : 
` METL: 将 数据 推 入 下 游 系 统 之 前 对 其 进行 持续 的 清洗 和 聚合 。 这 么 做 通常 可 以 减少 最 终 数 据 存储 中 的 数据 量 。 


触 友 器 (Triggers) : 实时 检测 行为 或 异常 事件 ， 及 时 触发 下 游 动作 。 例 如 当 一 个 设备 接近 了 检测 器 或 者 基地 ， 就 会 触发 
警报 。 


- 数据 浓缩 : 将 实时 数据 与 其 他 数据 集 连 接 ， 可 以 进行 更 丰富 的 分 析 。 例 如 将 实时 天 气 信息 与 航班 信息 结合 ， 以 建立 更 好 的 


. 复杂 会 话 和 持续 学 习 : 与 实时 流 相 关联 的 多 组 事件 被 持续 分 析 ， 以 更 新 机 器 学 习 模 型 。 例 如 与 在 线 游戏 相关 联 的 用 户 活动 
流 ， 允 许 我 们 更 好 地 做 用 户 分 类 。 


10.4 ”使 用 DStream 何 化 Streaming 应 用 程序 


下 面 我 们 使 用 Python 的 Spark Streaming 来 创建 一 个 简单 的 单词 计数 例子 。 这 个 例子 中 ， 我 们 会 使 用 DStream 一 一 由 众多 小 
批 次 数据 组 成 的 离散 数据 流 。 本 书 这 一 部 分 使 用 的 例子 可 以 在 以 下 内 容 中 找 
到 : https://github.com/drabastomek/learningPySpark/blob/master/Chapter10/streaming word count.py, 


这 个 字数 计数 示例 将 使 用 Linux/Unix nc 命令 一 一 它 是 一 种 读 写 跨 网 络 连 接 数 据 的 简单 实用 程序 。 我 们 将 使 用 两 个 不 同 的 
bash 终 端 ， 一 个 使 用 nc 命令 将 多 个 单词 友 送 到 我 们 计算 机 的 本 地 端口 (9999) ， 另 一 个 终端 将 运行 Spark Streaming 来 接收 这 些 
字 ， 并 对 它们 进行 计数 。 脚 本 的 初始 命令 集 在 这 里 被 注 明 : 


LL., 
T4 s 


e L o -J0 Ui d» € NHE 


4 Create a local SparkContext and Streaming Contexts 
from pyspark import SparkContext 
from pyspark.streaming import StreamingContext 


# Create sc with two working threads 
sc - SparkContext("local[2]", "NetworkWordCount") 


# Create local StreamingContextwith batch interval of 1 second 


SSC = StreamingContext (sc, 1) 


di Create DStream that connects to localhost:9999 


lines = ssc.socketTextStream("localhost", 9999) 


对 于 以 上 的 多 个 命令 ， 有 些 重 要 的 地 方 要 解释 一 下 : 


1. 第 9 行 的 StreamingContext 是 Spark Streaming 的 入 口 点 。 


2. 第 9 行 中 http://www.hzcourse.com/resource/readBook? 


path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/... (sc, 1) 的 1 是 批 间隔 ;在 这 种 情况 下 ， 我 们 每 


4 


秒 运 行 


微 批 次 。 


3. 第 12 行 上 的 lines 代 表 通 过 ssc.socketTextStream 提 取 而 来 的 DStream 数 据 流 。 


4. 如 同 在 描述 中 提 到 的 ，ssc.socketTextStream 是 Spark Streaming 中 从 特定 套 接 字 查看 文本 流 的 方法 ， 在 这 里 ， 是 本 地 计 
算 机 的 9999。 


接 下 来 的 几 行 代码 〈 如 评论 中 所 述 ) ， 将 DStream 的 行 分 为 单词 ， 然 后 使 用 RDD 对 每 批 数 据 中 的 单词 进行 计数 ， 并 将 该 信息 
打印 到 控制 台 ( 行 号 9) : 


# Print the first ten elements of each RDD in this DStream 


1. 4 Split lines into words 

2. words - lines.flatMap(lambda line: line.split(" ")) 
c 

4. 4 Count each word in each batch 

5. pairs - words.map(lambda word: (word, 1)) 

6. wordCounts = pairs.reduceByKey(lambda x, y: x + y) 
Ta 

8. 

9. 


wordCounts.pprint () 


代码 行 的 最 后 一 行 启 动 Spark Streaming (sscstart () ) ， 然 后 等 待 终止 命令 来 停止 运行 (例如 <Ctrl> <C>) 。 如 果 没 有 


等 到 终止 命令 ，Spark Streaming 程 序 将 继续 运行 。 


4 Start the computation 
BSC .Startl) 


# Wait for the computation to terminate 


ssc.awaitTermination() 


如 前 所 述 ， 现 在 有 了 脚本 ， 打 开 两 个 终端 窗口 : 一 个 用 于 您 的 nc 命令 ， 另 一 个 用 于 Spark Streaming 程 序 。 要 从 其 中 一 个 终 
痛 司 动 nc 命令 ， 请 键入 : 


nc -1k 9999 
Bax ET, EXT Zim Fr ABS UJSSEEXESJ9999nsL1, AT RIBSIBJEER EXEIBIZR: 


ee 2. nc 
dennylee&gallifrey-$ nc -lk 9999 
green green green blue blue blue blue blue 


本 例 中 (如 前 所 述 ) ， 我 襄 入 green 这 个 词 三 次 ，blue 五 次 。 从 另 一 个 终端 屏幕 ， 我 们 来 运行 刚 创 建 的 Python 流 脚本 。 本 例 
中 该 脚本 被 命名 为 streaming word count.pyhttp://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/../bin/spark-submit streaming word count.py 
localhost 9999, 


该 命令 将 运行 streaming word count.py 脚 本 ， 读 取 本 地 计算 机 ( 即 localhost) 闯 口 9999 以 接收 上 友 送 到 该 套 接 字 的 任何 内 
容 。 由 于 你 已 经 在 第 一 个 屏幕 上 将 信息 发 往 端口 ， 因 此 在 启动 脚本 后 不 久 ，sSpark Streaming 程 序 会 读 取 发 送 到 端口 9999 的 任何 


单词 ， 并 按照 以 下 屏幕 截图 中 所 示 的 样子 执行 单词 计数 : 


(u'blue', 5) 
(u'green', 3) 


streaming word_count.pPy 脚 本 将 持续 读 取 并 打印 任何 新 的 信息 到 控制 合 。 回 到 第 一 个 终端 (使 用 nc 命令 的 终端 ) ， 我 们 现 
在 可 以 输入 下 一 组 单词 ， 如 下 面 的 屏幕 截图 所 示 : 


ee 2. nc 
dennylee&gallifrey-$ nc -lk 9999 


green green green blue blue blue blue blue 


查看 第 二 个 终端 中 的 流 脚 本 ， 你 会 注意 到 此 脚本 每 秒 钟 继续 运行 〈 即 配置 的 batch interval 为 1 秒 ) ， 几 秒 钟 后 你 会 看 到 
gohawks 的 计数 : 


(u'blue', 5) 
(u'green', 3) 


使 用 这 个 比较 简单 的 脚本 ， 现 在 你 可 以 看 到 使 用 Python 的 Spark Streaming, 11€, WRR Encina, (TE 


主 总 到 此 信息 未 汇 态 。 如 果 我 们 继续 在 nc 终端 输入 green (如 下 所 示 ) : 


dennylee&gallifrey-$ nc -lk 9999 
green green blue blue blue blue blue 
gohawks 


green green 


Spark Streaming im HRA ABUS DR; 即 两 个 green 的 计数 值 (如 下 所 示 ) : 


Time: 2017-01-16 17:19:38 


(u'blue". 5) 
(u'green', 2) 


Time: 2017-01-16 17:19:42 


aree". 2) 


但 是 这 里 没有 体现 出 全 局 聚合 的 概念 ， 全 局 聚合 会 保留 信息 的 状态 。 这 和 意味 着 ， 不 是 报告 有 两 个 新 的 green ， 而 是 让 Spark 
Streaming 给 出 green 总 体 的 计数 ， 比 如 ，7 个 green，5 个 blue，1 个 gohawks。 我 们 将 在 下 一 节 中 以 
UpdateStateByKey/mapWithState 的 形式 讨论 全 局 聚合 。 


Q 其 他 好 的 PySpatk Streaming t t], HEA: 


"Network Wordcount” (J£ Apache Spark GitHub repo 


中 ) : https://github.com/apache/spatk/blob/master/examples/stc/main/python/streaming/network wordcount.py ; 
"Python Streaming Examples" : https://github.com/apache/spatk /tree/ master/examples/src/main/python/streaming; 


"S3 FileStream Wordcount” (Databricks 
notebook) : https://docs.cloud.databricks.com/docs/latest/databricks guide/index.html2£079620Spark9/o20Streaming/069/20FileStream9/020 


Wotd9/20Count9/20-9920Python.html o 


10.6 ”结构 化 流 介 绍 


对 于 Spark 2.0, Apache Spark 社 区 致力 于 通过 引入 结构 化 流 (structured streaming) 的 概念 来 简化 流 ， 结 构 化 流 将 
Streaming 概 念 与 Dataset/DataFrame 相 结合 (如 下 图 所 示 ) : 


如 前 几 章 中 对 于 DataFrame 的 叙述 ，spark SQL Engine (和 Catalyst Optimizer) 中 的 SQL 和 DataFrame 查 询 的 执行 以 构建 
逻辑 计划 、 构 建 大 量 物理 计划 为 中 心 ， 引 警 根据 其 成 本 优化 器 选择 正确 的 物理 计划 ， 然 后 生成 代码 ( 即 code gen) 以 对 性 能 有 利 
的 万 式 将 结果 传递 。 结 构 化 流 式 引 入 的 是 增 量 执行 计划 (Incremental Execution Plan) 的 概念 。 当 处 理 一 系列 数据 块 时 ， 结 构 
化 流 不 断 地 将 执行 计划 应 用 在 所 接收 的 每 个 新 数据 块 集合 上 。 通 过 这 种 运行 方式 ， 引 擎 可 以 充分 利用 Spark DataFrame/Dataset 
所 包含 的 优化 功能 ， 并 将 其 应 用 于 传 入 的 数据 沅 。 而 且 还 更 易于 与 其 他 Spark DataFrame 优 化 组 件 集成 ， 这 些 组 件 包 括 ML 


Pipeline、GraphFrames、TensorFrames 等 等 。 


增 量 执行 
计划 
逻辑 计划 ET. aM 
——— > 
= | 
H 
| 
x dia us — — [9/0 
 — 
"T 


| | 

S X 9. 、 y 

DasFrame | | 
使 用 结构 化 流 还 能 简化 代码 。 例 如 ， 以 下 的 伪 代 码 演示 了 从 S3 读 取 数 据 流 并 存储 到 MySQL 数 据 库 的 批量 聚合 (batch 

aggregation) : 

logs = spark.read.json('s3://logs') 

logs.groupBy(logs.UserId).agg(sum(logs.Duration)) 


.write.jdbcec('jdbc:mysq1//...') 


以 下 是 连续 聚合 (continous aggregation) 的 伪 代 码 示 例 : 


logs = spark.readStream.json('s3://logs').load() 
sq - logs.groupBy(logs.UserId).agg(sum(logs.Duration)) 


.writeStream.format('json').start() 


创建 sq 变量 的 原因 是 它 允许 你 检查 结构 化 流 作 业 的 状态 并 将 其 终止 ， 如 下 所 示 : 


# Will return true if the ‘sq stream is active 
Sq.isActive 
4 Will terminate the ‘sq stream 


sq.stop() 


我 们 来 看 一 下 使 用 updateStateByKey 的 有 状态 流 的 文字 计数 脚本 ， 并 将 其 改 成 一 个 结构 化 流 的 文字 计数 脚本 ; 你 可 以 在 以 下 
位 置 获取 完整 的 structured streaming word count.py 脚 


本 : https://github.com/drabastomek/learningPySpark/blob/master/Chapter10/structured streaming word count.py。 


己 之 前 的 脚本 相反 ， 我 们 现在 要 使 用 更 为 熟悉 的 DataFrame 代 码 ， 如 下 所 示 : 


4 Import the necessary classes and create a local SparkSession 
from pyspark.sql import SparkSession 

from pyspark.sql.functions import explode 

from pyspark.sql.functions import split 


Spark = SparkSession "^ 
.builder \ 
.appName ("StructuredNetworkWordCount") ^ 


.getOrCreate () 


脚本 开始 的 几 行 导入 必要 的 类 ， 并 建立 当前 的 SparkSession。 然 而 与 之 前 的 流 脚 本 相反 ， 如 接 下 来 的 几 行 脚本 所 示 ， 你 不 需 
要 建立 流 上 下 文 ， 因 为 它 已 经 包含 在 SparkSession 中 了 : 


1. 4 Create DataFrame representing the stream of input lines 
2. # from connection to localhost:9999 
3. lines = sparkN 

4. .readStreamwN 

5. .format('socket')N 

6. .Option('host', 'localhost!')V 

T. .option('port', 9999) 

8. .load() 

9. 

10. 4 Split the lines into words 
11. words = lines.select( 
12. explode( 
L3 split(lines.value, ' ') 
14. ];alras('word!) 
L5. ) 
Ta 


17. # Generate running word count 


18. wordCounts = words.groupBy('word').count() 


取而代之 的 ， 流 那 部 分 的 代码 是 通过 调用 readstream 来 初始 化 的 (第 4 行 ) 。 
: 3 一 8 行 初始 化 了 从 9999 端 口 读 取 的 数据 流 ， 如 同 之 前 的 两 个 脚本 一 样 。 


` 不 使 用 RDD flatMap、mapb 和 teduceByKey 函 数 去 读 取 行 从 而 将 其 分 割 成 单词 ， 并 对 每 个 批量 数据 中 的 单词 计数 ， 我 们 可 以 使 
用 PySpark SQLáJexplodefesplit h žr, Aw $10 —154T Pp 3t, 


` 我 们 可 以 使 用 熟悉 的 DataFrame groupBy 语 句 和 count () 来 生成 运行 的 文字 计数 ， 而 不 使 用 updateStateByKey 或 创建 一 个 


updateFunc ( 见 有 状态 的 流 文字 计数 脚本 ) ， 如 17 一 18 行 所 示 。 


要 将 这 些 数据 输出 到 控制 合 ， 我 们 将 使 用 writestream， 如 下 所 示 : 


Start running the query that prints the 


l. d 
2. # running counts to the console 
3. query = wordCounts\ 

A 


: .writeStreamwvN 


5. .outputMode('complete') 

6. .formatí('console')wN 

Ta .Start() 

8. 

9. d Await Spark Streaming termination 
10. query.awaitTermination() 


这 里 没有 使 用 pprint () ， 我 们 明确 地 调用 writeSstream 来 写 入 流 ， 并 定义 格式 和 输出 模式 。 虽 然 写 起 来 有 点 长 ， 但 这 些 方 法 


和 属性 在 语法 上 与 其 他 DataFrame 调 用 类 似 ， 只 需要 更 改 outputMode 和 format 属 性 即 可 将 其 保存 到 数据 库 、 文 件 系统 、 控 制 全 


等 。 最 后 ， 如 第 10 行 所 示 ， 我 们 将 运行 awaitTermination 等 待 取消 该 streaming 作 业 。 
让 我 们 回 到 第 一 个 终端 运行 我 们 的 nc 作业 : 
$ nc -lk 9999 
green green green blue blue blue blue blue 
gohawks 


green green 


仿 查 以 下 输出 。 如 你 所 见 ， 你 既 能 得 到 有 状态 流 的 优势 ， 还 能 使 用 更 为 熟悉 的 DataFrame API: 


十 一 一 一 一 = 十 = 一 一 一 = 十 
| wordl count | 
T----- T----- 十 
| green | 3| 
| blue| 5l 
+ 一 一 一 一 一 十 = 一 =- 十 
Batch: 1 
+======= +===== + 
| Word|countl 
+------- +----- + 
| greenl 3l 
| blue | 51 
| gohawks | 1l 
中 一 一 一 一 一 一 一 二 一 一 一 一 一 十 
Batch: z 
T------- t----- * 
| word | count | 
T------- t----- * 
| green | 5 | 
| blue| 5| 
| gohawks | 1l 


T-------pR----- 


10.7 ”小结 


值得 注意 的 是 ， 结 构 化 流 现在 (在 撰写 本 文 时 ) 还 不 具备 应 用 于 生产 环境 的 条 件 。 然 而 ，Spark 是 一 个 学 式 转移 ， 希 望 能 够 使 
数据 科学 家 和 数据 工程 师 更 容易 构建 连续 应 用 程序 (continuous applications) 。 尽 委 在 表面 几 和 中 没有 了 明确 提 及 ， 但 在 使 用 沈 
应 用 程序 时 ， 你 需要 在 设计 时 考虑 许多 潜在 的 问题 ， 例 如 事件 沛 后 、 部 分 输出 、 故 障 状态 恢复 、 分 布 式 读 取 和 写 入 等 。 通 过 使 用 
结构 化 流 ， 这 些 问 题 大 部 分 将 被 抽 离 出 来 ， 使 你 更 容易 构建 连续 应 用 程序 。 


我 们 鼓励 你 尝试 使 用 Spark 结 构 化 流 ， 以 便 在 结构 化 流 成 熟 时 能 够 轻松 地 构建 流 应 用 程序 。Reynold Xin 曾 在 2016 Spark 技 术 
峰会 的 演讲 “The Future of Real-Time in Spark” 中 提 到 : “执行 流 分 析 的 最 简单 的 方式 就 是 无 需 思 考 它 。 


(http://www.slideshare.net/rxin/the-future-of-realtime-in-spark) 。 

更 多 信息 ， 请 参阅 以 下 更 多 的 结构 化 沅 资源 : 
: PySpark 2.1 Documentation: pyspatk.sql.module (http:/ /spatk.apache.org/docs/2.1.0/api/python/pyspark.sql.html) 
: Introducing Apache Spatk2.1 (https://databricks.com/blog/2016/12/29 /introducing-apache-spark-2-1.html) 


: Structuring Apache Spark2.0: SOL, DataFrames, Datasets and Streaming-by Michael 


Armbrust (http:/ /www.slideshare.net/databricks/structuring-spark-dataframes-datasets-and-streaming-62871797 ) 
: Structured Streaming Programming Guide (http:/ /spatk.apache.org/docs/latest/streaming-programming-guide.html ) 
: Structured Streaming (aka Streaming DataFrames) [SPARK-8360] (https: / /issues.apache.org/jira/browse/SPARK-8360) 


: Structuted Streaming Programming Abstraction, Semantics, and APIs Apache 


JIRA (https:/ /issues.apache.org/jira/secure/attachment/12793410/StructuredStreamingProgrammingA bstractionSemanticsandAPIs- 


ApacheJIRA.pdf) 


在 下 一 草 中 ， 我 们 将 向 你 展示 如 何 通 过 编程 的 方式 来 对 你 的 PySpark 应 用 程序 执行 模块 化 、 打 包 及 提交 ，。 


第 11 章 ”打包 Spark 应 用 程序 


到 目前 为 止 ， 我 们 已 经 使 用 Spark 进 行 了 一 种 非常 万 便 的 开 友 代码 万 式 一 一 Jupyter 笔 记 本 。 当 你 想 研 究 一 个 概念 验证 并 且 i 记 
录 你 在 这 个 过 程 中 做 了 什么 时 ， 这 种 万 法 融 很 好 。 

不 过 ， 如 果 你 需要 计划 一 个 作业 ， 该 作业 每 小 时 都 在 运行 ，Jupyter 笔 记 本 就 工作 不 了 了 。 另 外 ， 打 包 应 用 程序 是 相当 困难 
的 ， 因 为 很 难 把 你 的 脚本 分 成 具有 明确 定义 的 API 的 逻辑 块 一 一 所 有 的 东西 都 放 在 一 个 笔记 本 中 。 

在 本 章 中 ， 我 们 会 学 习 到 如 何 利用 可 重用 的 模块 形式 编写 脚本 ， 并 且 以 编程 方式 提交 作业 到 Spark。 


然而 在 你 开始 之 前 ， 你 可 能 想 查 看 额外 的 章节 ， 我 们 提供 了 关于 如 何 订 阅 和 使 用 Databricks 社 区 版 本 或 者 Microsoft 的 
HDInsight Spark 严 品 的 操作 指南 。 关 于 如 何 使 用 该 指南 可 以 在 此 处 找 
到 : https://www.packtpub.com/sites/default/files/downloads/FreeSparkCloudOffering.pdf, 


11.1  spark-submitáp e 


提交 作业 到 Spark 的 入 口 点 (在 本 地 或 者 在 集群 上 ) 是 spark-submit 脚 本 。 然 而 ， 该 脚本 不 仅 允 许 你 提交 作业 (尽管 这 是 其 
主要 目的 ) ， 而 且 还 可 以 终止 作业 或 检查 其 状态 。 


次 一 在 后 台 ， spatk-submit 命 令 传 递 这 个 调用 到 spatk-class 脚 本 ， 反 过 来 ， 开 始 居 动 Java 应 用 程序 ， 感 兴趣 的 话 ， 你 可 以 查看 


Spark 4j GitHub/& : https://github.com/apache/spark/blob/master/bin/spark-submit。 


spark-submit 命 令 提 供 了 一 个 统一 的 API 把 应 用 程序 部 署 到 各 种 Spark 又 持 的 集群 管理 器 上 (如 Mesos 或 Yarn) ， 从 而 免除 
了 单独 配置 每 个 应 用 程序 。 


在 一 般 级 别 上 ， 语 法 如 下 : 
spark-submit [options] «python file» [app arguments] 


我 们 马上 会 把 所 有 选项 列表 过 一 志 。app arguments 是 要 传递 给 应 用 程序 的 参数 。 


你 可 以 使 用 sys.arev 从 命令 行 解析 参数 (在 impott sys 之 后 ) ， 或 者 可 以 利用 atgpatse 来 模块 化 Python。 


使 用 spark-submit 时 ， 你 可 以 给 Spark 引 警 传递 大 量 不同 的 参数 。 


一 下面 我 们 只 讲述 Python 的 具体 参数 (因为 spatk-submit 还 可 以 用 来 提交 Scala 或 者 Java 所 写 的 应 用 程序 ， 并 且 打包 成 .jar 广 
件 ) 。 


现在 我 们 将 逐个 介绍 这 些 参数 ， 以 便 对 命令 行 所 做 的 工作 有 一 个 很 好 的 概述 
master: 用 于 设置 主 〈 头 ) 结 点 URL 的 参数 。 支 持 的 语法 是 : 


local: 用 于 执行 本 地 机 器 的 代码 。 如 果 你 传递 local 参 数 ，Spatk 会 运行 一 个 单一 的 线程 〈 不 会 利用 任何 并 行 线程 ) 。 在 一 个 
多 核 机 器 上 ， 你 可 以 通过 确定 local 加 来 为 Spatk 指 定 一 个 具体 使 用 的 内 核 数 ，h 指 的 是 使 用 的 内 核 数 ， 还 可 以 通过 local 四 来 制定 运行 


和 Spatk 机 器 内 核 一 样 多 的 复杂 线程 。 
- spark: //host: port: 这 是 一 个 URL 和 一 个 Spatk 单 机 集群 的 端口 (不 运行 任何 作业 调度 ， 如 Mesos 或 者 Yatn) 。 
: mesos: //host: port: 这 是 一 个 URL 和 一 个 部 署 在 Mesos 的 Spatk 集 群 的 端口 
yarn: 作为 负载 均衡 器 ， 用 于 从 运行 Yatn 的 头 结 点 提交 作业 。 


: -deploy-mode: 允许 你 决定 是 否 在 本 地 (使 用 client) 启动 Spatk 了 驱动 程序 的 和 参数， 或 者 在 集群 内 (使 用 cluster 选 项 ) 的 其 中 
一 侣 工作 机 器 上 启动 。 此 参数 的 默认 值 是 client。 这 是 一 份 解释 更 多 特异 性 差异 的 Spatk 文 档 的 摘录 (来源 : 


http://bit.ly/2hTtDVE) : 


一 个 剃 见 的 部 署 策 略 是 从 [一 个 screen 会 话 ] 物 理 上 和 你 的 工作 机 器 (如 在 一 个 独立 的 EC2 集 群 的 主 节点 ) 在 同一 个 位 置 的 网 天 
设备 提交 应 用 程序 。 这 种 设置 比较 适合 客 尸 端 模 式 。 客 尸 端 模式 中 ， 驱 动 程序 直接 作为 集群 的 客 尸 机 在 spark-submit 过 程 中 局 


动 。 应 用 程序 的 输入 和 输出 附加 在 控制 台 上 。 因 此 ， 这 种 模式 特别 适合 参与 REPL 的 应 用 程序 (如 Spark shell) 。 


另外 ， 如 果 你 的 应 用 程序 从 一 人 台 机 器 远程 提交 到 工作 机 器 (如 你 本 地 的 笔记 本 电脑 ) ， 单 见 的 是 ， 在 驱动 程序 和 执行 程序 之 
间 使 用 集群 模式 最 小 化 网 络 延迟 。 目 前 ， 独 立 模 式 不 支持 Python 应 用 程序 的 集群 模式 。 


 --name: 你 的 应 用 程序 名 称 。 注 意 ,， 创建 SparkSession (下 一 节 会 了 解 ) 时 ， 如 果 是 以 编程 方式 指定 应 用 程序 名 称 ， 那 么 来 
自命 令 行 的 参数 会 被 重 写 。 讨 论 --conf 参 数 时 ， 我 们 会 简短 地 解释 参数 的 优先 级 。 


: --py-files: .py、.egg 或 者 .zip 文 件 的 过 号 分 隔 列 表 ， 和 包括 Python 应 用 程序 。 这 些 文 件 将 被 交付 给 每 一 个 执行 器 来 使 用 。 在 本 章 
后 段 ， 我 们 会 为 你 展示 如 何 将 代码 打包 到 一 个 模块 中 。 


: —-files: 命令 给 出 一 个 过 号 分 隔 的 文件 列表 ， 这 些 文件 将 被 交付 到 每 一 个 执行 器 来 使 用 。 
: —conf: 参数 通过 命令 行动 态 地 更 改 应 用 程序 的 配置 。 语 法 是 =。 例 如 ， 你 可 以 传递 --conf spark.local.dir- /home/SparkTemp/ 


或 者 --conf spark.app.name-learningPySpark; 后 者 相当 于 提交 和 之 前 解释 过 的 --name 一 样 的 属性 。 
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一 Spatk 从 3 个 地 方 使 用 配置 参数 : 在 应 用 程序 中 创建 SparkContext 时 ， 你 指定 了 来 自 SpatrkConf 的 参数 获得 最 高 优先 权 ， 然 后 


第 二 优先 级 是 任何 你 传递 给 来 自命 令 行 的 spatk-submit 脚 本 的 参数 ， 最 后 是 任何 在 conf/spatk-defaults.conf 文 件 中 指定 的 参数 。 
: —properties-file: 配置 文件 。 它 应 该 有 和 conf/spatk-defaults.conf 文 件 相 同 的 属性 设置 ， 也 是 可 读 的 。 


` --dtivef-memoty: 指定 应 用 程序 在 驱动 程序 上 分 配 多 少 内 存 的 参数 。 允 许 的 值 有 一 个 语法 限制 ， 类 似 于 1000M，2G。 默 认 值 
是 1024M。 


: -executor-memoty: 参数 指定 每 个 执行 器 上 为 应 用 程序 分 配 多 少 内 存 。 默 认 值 是 1G。 
help: 展示 帮助 信息 和 退出 。 

- —verbose: 在 运行 应 用 程序 时 打印 附加 调试 信息 。 

: —vetsion: 打印 Spatkk 版 本 。 


仅 在 Spark 单 机 集群 (cluster) 部 署 模式 下 ， 或 者 在 一 个 Yarn 上 的 部 署 集群 上 ， 你 可 以 使 用 --driver-cores 来 允许 指定 驱动 程 
序 的 内 核 数 量 (默认 值 为 1) 。 仅 在 一 个 Spark 单 机 或 者 Mesos 的 集群 (cluster) 部 署 模 型 中 ， 你 也 有 机 会 使 用 这 些 : 


 —supervise: 如 果 指 定 了 这 个 参数 ， 当 了 驱动 程序 丢失 或 者 失败 时 ， 就 会 重新 启动 该 驱动 程序 。 也 可 以 通过 在 Yarn 中 设置 集群 
(cluster) 的 --deploy-mode 来 完成 。 


- --kill: 将 完成 的 过 程 赋予 submission_id。 
- —status: 如 果 指 定 了 该 命令 ， 它 将 请 求 指 定 的 应 用 程序 的 状态 。 


在 Spark 单 机 和 Mesos (client 部 署 模式 ) 中 ， 你 可 以 指定 --total-executor-cores， 该 参数 会 为 所 有 执行 器 (不 是 每 一 个 ) 
请 求 指 定 的 内 核 数 量 。 另 一 方面 ， 在 Spark 单 机 和 YARN 中 ， 只 有 --executor-cores 参 数 指定 每 个 执行 器 的 内 核 数量 (在 YARN 模 
式 中 默认 值 为 1， 或 者 对 于 单机 模式 下 所 有 工作 节点 可 用 的 内 核 ) 。 


另外 ， 向 YARN 集 群 提交 时 你 可 以 指定 : 
: --queue: 该 参数 指定 了 YARN 上 的 队列 ， 以 便 将 该 作业 提交 到 队列 (默认 值 是 default) 


- -num-executors: 指定 需要 多 少 个 执行 器 来 请 求 该 作业 的 参数 。 如 果 启 动 了 动态 分 配 ， 则 执行 器 的 初始 数量 至 少 是 指定 的 数 


既然 我 们 已 经 过 论 了 所 有 的 参数 ， 那 么 是 时 候 把 这 些 参数 付 诸 实 跤 了 。 


11.2 ”以 编程 方式 部 署 应 用 程序 


不 像 Jupyer 笔 记 本 ， 当 你 使 用 spark-submit 命 令 时 ， 你 需要 自己 准备 SparkSession 并 且 将 它 配 置 好 以 便 你 的 应 用 程序 能 够 正 


在 本 节 中 ， 我 们 将 学 习 如 何 创建 和 配置 SparkSession， 以 及 如 何 对 Spark 使 用 外 部 模块 。 
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-一 如 果 你 没有 创建 Databricks 或 者 Microsoft 的 免费 账户 (或 者 其 他 Spatk 的 供应 商 ) ， 别 担心 ， 我 们 仍 将 使 用 你 本 地 的 机 器 ， 
因为 这 样 做 更 容易 开始 。 不 过 ， 如 果 你 决定 将 应 用 程序 部 署 到 云 上 ， 那 么 在 提交 作业 时 ， 只 需要 更 改 --master 参 数 即 可 。 


11.2.1 配置 你 的 SparkSession 


以 编程 方式 使 用 Jupyter 和 提交 作业 的 主要 区 别 是 ， 你 必须 创造 你 的 Spark 上 下 文 背 景 (Spark context) (和 Hive， 如 果 你 
计划 使 用 HiveQL) ， 而 当 使 用 Jupter 运 行 Spark， 上 下 文 背 景 会 自动 开始 。 


在 本 节 中 ， 我 们 将 开发 一 个 简单 的 应 用 程序 ， 使 用 来 自 Uber 的 公开 数据 ， 包 含 2016 年 6 月 纽约 地 区 的 行程 信息 
JAhttps://s3.amazonaws.com/nyc-tlc/trip-- data/yellow tripdata 2016-06.Csv 下 载 数据 集 (当心 ， 这 是 一 个 接近 3GB 的 文 
件 ) 。 原 始 数据 集 包 含 1100 万 次 行程 ， 但 是 对 于 我 们 的 示例 ， 我 们 只 检索 了 330 万 个 ， 并 且 只 选择 所 有 可 用 列 的 子 集 。 
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一 转换 后 的 数据 集 可 以 从 http://www.tomdrabas.com/data/LearningPySpark/uber_data_nyc_2016-06_3m_pattitioned.csv.zip 下 
载 。 下 载 文 件 并 将 其 从 GitHub 解 压 到 第 13 章 的 文件 夹 。 这 个 文件 可 能 看 起 来 很 奇怪 ， 因 为 它 实际 上 是 一 个 目录 ， 里 面包 含 了 4 个 文 


件 ， 用 Spatk 读 取 时 会 形成 一 个 数据 集 。 


那么 ， 让 我 们 开始 吧 ! 


11.2.3 模块 化 代码 
以 这 样 的 一 种 方式 构建 代码 ， 以 便 以 后 重用 该 代码 也 还 是 一 件 值得 做 的 事 。 同 样 可 以 用 Spark 一 一 你 可 以 模块 化 你 的 方法 ， 
稍 后 再 重用 这 些 方法 。 这 也 有 助 于 提高 代码 的 可 读 性 和 可 维护 性 。 


在 这 个 例子 中 ， 我 们 将 建立 一 个 模块 ， 并 且 在 数据 集 上 做 一 些 计算 : 这 将 计算 出 上 车 和 下 和 车 位 置 的 直线 距离 ( 按 英 里 计算 ) 
(使 用 半 正 天 (Haversine) 公式 ) ， 并 且 将 计算 的 距离 从 英里 转化 成 公里 。 


六 更 多 的 半 正 矢 公 式 可 以 在 此 找到 : http:/ /www.movable-type.co.uk/sctripts/latlong.html. 


所 以 ， 首 先 我 们 将 构建 一 个 模块 。 


我 们 把 无 关 方 法 的 代码 放 进 additionalCode 文 件 夹 。 


e 
Sg 看 这 本 书 的 GitHub 库 ， 如 果 你 还 没有 看 的 话 : https:/ /pgithub.comy/ dtabastomek/leafningPySpatky/ttee/mastet/Chaptet11。 


文件 夹 的 树 状 结构 如 下 所 示 : 


additionalCLode/ 
上 一 Setup .py 
l utilities 
— M .py 
I— base.py 
I— converters 
| 
| 


I— init .py 
L— distance.py 


< directories, 6 files 


你 可 以 看 到 ， 它 有 一 个 稍微 正常 的 python 包 结构 : 在 顶层 有 一 个 setup.py 文 件 ， 所 以 可 以 打包 我 们 的 模块 ， 在 这 些 模 块 里 有 
我 们 的 代码 。 


本 例 中 的 setup.py 文 件 如 下 所 示 : 


from setuptools import setup 


setup ( 
name-'PySparkUtilities', 
version='0.1dev', 
packages-['utilities', 'utilities/converters'], 
license-'''! 
Creative Commons 
Attribution-Noncommercial-Share Alike license''', 
long description-'''! 
An example of how to package code for PySpark'''! 


我 们 不 会 深入 到 结构 细节 ( 它 本 身 是 相当 不 言 目 明 的 ) : 你 可 以 在 此 读 到 更 多 天 于 如 何 定义 其 他 项 目的 setup.py 文 件 
(https://pythonhosted.org/an example pypi project/setuptools.html) 。 


在 实用 工具 文件 夹 中 的 _init_ .py 文件 有 如 下 的 代码 : 


from .geoCalc import geoCalc 


| all = ['geoCalc','converters'!] 


它 有 效 地 公开 了 geoCalc.py 和 converter (马上 会 介绍 更 多 有 关内 容 ) 。 
计算 两 点 之 间 的 距离 


我 们 提 到 的 第 一 种 万 法 采用 了 半 正 天 (Haversine) 公式 计算 地 图 上 两 点 之 间 的 直线 距离 (直角 坐标 系 ) 。 执 行 此 操作 的 代码 
位 于 该 模块 的 geocalc.py 文 件 中 。 


calculateDistance (http://www.hzcourse.com/resource/readBook? 
pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 是 geoCalc 类 的 静态 方法 。 它 需要 两 个 地 理 位 
置 ， 表 示 为 一 个 元 组 或 者 一 个 具有 两 个 元 素 的 列表 ( 按 顺 序 排列 的 纬度 和 经 度 ) ， 并 且 使 用 半 正 天 (Haversine) 公式 计算 距离 。 
计算 距离 所 需 的 地 球 半径 用 英里 表示 ， 所 以 计算 的 距离 也 将 是 闫 里 。 

转变 距离 单位 


我 们 构建 了 实用 程序 包 ， 以 便 它 可 以 更 通用 。 作 为 包 的 一 部 分 ， 我 们 公开 了 在 不 同 度量 单位 之 间 转 换 的 万 法 。 


; 
z Y 
$. S 


一 此 时 ， 我 们 仅 将 其 限制 到 距离 ， 但 是 功能 上 可 以 进一步 扩展 到 其 他 区 域 ， 如 面积 、 体 积 或 者 温度 。 


为 了 便于 使 用 ， 作 为 converter 实 现 的 任何 类 都 应 该 公开 类 似 的 接口 。 这 惑 是 为 什么 建议 是 要 来 目 BaseConverter 的 类 (查看 
base.py) : 


from abc import ABCMeta, abstractmethod 


class BaseConverter (metaclass-ABCMeta): 
Qstaticmethod 
eGabstractmethod 
def convert(f, t): 
raise NotImplementedError 


这 是 一 个 不 能 实例 化 的 纯 抽象 类 : 它 的 唯一 目的 是 强制 派生 类 实现 
convert (http://www.hzcourse.com/resource/readBook? 
path=/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 。 参 看 distance.py 文 件 有 关 实 施 的 细节 。 
对 于 精通 Python 的 人 来 说 ， 这 段 代 码 应 该 可 以 自己 理解 ， 所 以 此 处 我 们 不 会 逐一 介绍 。 


创建 一 个 egg 文 件 


既然 我 们 已 经 有 了 所 有 的 代码 ， 那 么 就 可 以 打包 它们 了 。PySpark 文 档 指出 ， 你 可 以 用 逗号 分 隔 传 递 .py 文件 (使 用 --py-files 
转换 ) 给 spark-submit 脚 本 。 然 而 ， 更 方便 的 是 把 模块 打包 进 一 个 .zip 或 者 一 个 .egg。 当 setup.py 文 件 方便 使 用 时 ， 你 应 该 做 的 
就 是 调用 additionalCode 文 件 夹 里 的 内 容 : 


python setup.py bdist egg 


如 果 一 切 顺 利 的 话 ， 你 应 该 看 到 3 个 文件 夹 : PySparkUtilities.egg-info、build 和 dist， 我 们 感 兴趣 的 是 dist 文 件 夹 里 的 文 
fF: PySparkUtilities-0.1.dev0-py3.5.egg. 


全 运行 之 前 的 命令 后 ， 你 可 能 会 发 现 egg 文 件 的 名 称 咯 有 不 同 ， 因 为 你 可 能 用 了 不 同 的 Python 版 本 。 你 仍然 可 以 在 你 的 Spatk 
作业 中 使 用 它 ， 但 是 你 必须 要 调整 spatk-submit 命 令 来 反映 出 你 的 .egg 文 件 名 称 。 
Spark PAJA EMAZ 


为 了 对 在 PySpark 中 的 DataFrame 执 行 操作 ， 你 有 两 个 选择 : FAAARA E (大 多 数 情况 下 都 足以 达到 你 的 需 
求 ， 作 为 更 高 性 能 的 代码 而 被 推荐 ) 或 者 创建 你 自己 用 户 定 义 的 冰 数 。 


为 了 定义 一 个 UDF， 你 必须 把 Python 为数 封闭 在 .udf (http://www.hzcourse.com/resource/readBook? 
path-/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 中 ， 并 且 定 义 它 的 返回 值 类 型 。 以 下 便 是 我 
们 如 何在 我 们 的 脚本 中 来 实现 的 (检查 calculatingGeoDistance.py 文 件 ) : 


import utilities.geoCalc as geo 
from utilities.converters import metricImperial 


getDistance = func.udf( 
lambda lati, longi; lat2, long2: 
geo.calculateDistance( 
(lati, longl), 
(lat2, long2) 


convertMiles - func.udf (lambda m: 
metriclImperial.convert(str(m) + ' mile', 'km')) 


iz FRERET LA FH ESERZACEETEEUEEI THÉ EB : 
uber - uber.withColumn( 
'miles', 


getDistance( 


func.col('pickup latitude'), 

func.colí('pickup longitude'), 

func.col('dropoff latitude') 
( 


func.col('dropoff longitude') 


uber = uber.withColumn( 
'kilometers', 
convertMiles(func.col('miles'))) 


使 用 withColumn (http://www.hzcourse.com/resource/readBook? 


pathz/openresources/teach ebook/uncompressed/17232/OEBPS/Text/...) 方法 为 我 们 感 兴 趣 的 值 创 建 附 加 列 。 
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Scala 代 码 翻 译 和 执行 。 不 过 如 果 你 用 Python 写 了 自己 的 方法 ， 这 个 方法 是 不 会 被 译 成 Scala 的 ， 并 且 还 必须 要 在 驱动 程序 上 执行 。 这 
将 导致 显著 的 性 能 障碍 。 查 看 堆栈 溢出 的 详细 信息 : http://stackoverflow.com/questions/32464122/spatk-performance-for-scala-vs- 


python o 


现在 我 们 把 所 有 的 谜 题 都 放 在 一 起 ， 最 终 提 区 我 们 的 作业 。 


11.2.4 提交 作业 


在 你 的 命令 行 键入 以 下 命令 (假设 你 保持 了 和 GitHub 上 一 样 结构 不 变 的 文件 来 ) : 


./launch spark submit.sh V 


--master local[4] \ 
--py-files additionalCode/dist/PySparkUtilities-0.1.dev0-py3.5.egg \ 


calculatingGeoDistance.py 


我 们 还 需要 给 你 展示 一 些 launch_spark_submit.sh shell 脚 本 的 解释 。 在 额外 的 章节 中 ， 我 们 配置 了 Spark 的 实例 ， 运 行 
Jupyter (通过 对 jupyter 设 置 PYSPARK_DRIVER_PYTHON 系 统 变 量 ) 。 如 果 你 用 这 个 方法 ， 在 配置 的 机 器 上 简单 使 用 了 spark- 
submit， 那 么 很 可 能 会 得 到 以 下 错误 的 其 他 版 本 : 

jupyter: 'calculatingGeoDistance.py' is not a Jupyter command 

因此 ， 在 运行 spark-submit 命 令 之 前 ， 我 们 必须 先 还 原 该 变量 并 且 运 行 这 段 代 码 。 这 可 能 会 突然 变 得 令 人 厌倦 ， 所 以 我 们 使 
用 launch_spark submit.sh 脚 本 让 其 自动 化 执行 : 


H!/bin/bash 


unset PYSPARK DRIVER PYTHON 
spark-submit $* 

export PYSPARK DRIVER PYTHON-jupyter 
正如 你 所 见 ， 这 只 不 过 是 一 个 spark-submit 命 令 的 封套 。 


如 果 一 切 顺 利 ， 你 会 在 命令 行 界面 中 看 到 下 面 的 一 长 串 输 出 : 


17/01/08 
17/01/08 
17/01/08 
17/01/88 
17/01/88 
17/01/08 
17/01/08 


INFO 
WARN 
INFO 
INFO 
INFO 
INFO 
INFO 


ps with view permissions: Set(); users 


17/01/08 20:51:56 INFO 
17/01/08 20:51:56 INFO 
17/01/08 28:51:56 INFO 
17/01/08 28:51:56 INFO 
17/01/88 78:51:56 INFO 
17/01/88 78:51:56 INFO 
4e56-8568 - 732686652123 
17/01/08 20:51:56 INFO 
17/01/08 20:51:56 INFO 
17/01/08 20:51:56 INFO 
17/01/08 28:51:56 INFO 
17/01/08 28:51:56 INFO 


SparkContext: Running Spark version 2.1.60 

NativeCodeloader: Unable to load native-hodoop library for your platform... 
SecurityManager;: Changing view acls to: drabast 

SecurityManager: Changing modify acls to: drabast 

SecurityManager: Changing view acls groups to: 

SecurityMonager: Chonging modify ocls groups to: 

SecurityManoger: SecurityManoger: authentication disabled; ui acls disabled; users with view permissions: Set(drabast); grou 
with modify permissions: Set(drabost); groups with modify permissions: Set() 

Utils: Successfully started service 'sporkÜriver' on port 52919, 

SparkEnv: Registering MapOutputTracker 

SparkEnv: Registering BlockManagerMaster 

BlockManagerMasterEndpoint: Using org.apache.spark.storage.DefaultTopologyMapper for getting topology information 
BlockMaonagerMoasterEndpoint: BlockManagerMosterEndpoint up 

DiskBlockManager: Created local directory ot /privote/var/folders/, g/wy8. 18nS4mz ktglpg;j.bhj88680ga/T/blockmgr -ffe4fbf9- 7341- 


using builtin-java classes where opplicable 


MemoryStore: MemoryStore started with capacity 366.3 MB 

SparkEnv: Registering OutputComeitCoordinotor 

Utils: Successfully started service 'SparkUI' on port 4040. 

SparkUI: Bound SparkUI to 0.0.0.8, and started at http: //192.168.0.109:4040 

SparkContext: Added file file:/Users/drabost/Documents/Publishing/TST/Ch13/calculatingGeoDistance.py at file:/Users/drabast/D 


ocuments/Publishing/TST/Ch13/calculatingGeoDistance.py with timestamp 1483937516638 


17/01/08 28:51:56 INFO 


Utils: Copying /Users/drabast/Documents/Publishing/TST/Ch13/calculatingGeoDistance.py to /private/var/folders/.g/wy8 18n54mz.. 


ktglpgj.bhj8090094/T /spark-7949b524 -258a-4c92-b292 -cBOcccdó6lde/userFiles-a095112f-2ac5-45b9-abf 5 -09c7db1a6d9d/calculatingGeoDistance.py 


17/01/08 20:51:56 INFO 


SparkContext: Added file file:/Users/drobost/Documents/Publishing/TST/Ch13/additionalCode/dist/PySparkUtilities-0.1.dev0-py3. 


5.egg at file:/Users/drabost/Documents/Publi shing/TST/Ch13/addi tionalCode/dist/PySparkUtilities-0.1,devO-py3,5.egg with timestamp 1483337516655 


17/01/08 20:51:56 INFO 


Utils: Copying /Users/drabast/Documents/Publishing/TST/Ch13/additionalCode/dist/PySparkUtilities-0,1.dev0-py3.5.egg to /priva 


te/var/folders/. g/wyQ. 18n54mz. ktg1pgj bhj80000gq/T/spark-79d96524-2590a-4c92 -b292 -a86cccd661de/userFiles-o0095112f -2ac5-45b9-abf 8 -09c7db106d9d/PySpark 


Utilities-0.1.dev8-py3. 


17/01/08 28:51:56 INFO 
17/01/88 28:51:56 INFO 
17/01/08 20:51:56 INFO 
17/01/08 20:51:56 INFO 
17/01/08 20:51:56 INFO 
17/01/08 20:51:56 INFO 
,109, 52920, None) 
17/01/08 28:51:56 
17/01/08 28:51:56 
17/01/08 28:51:56 
Session created 

17/01/08 20:51:57 
17/01/08 20:51:57 
17/01/08 20:51:57 
17/01/08 20:51:57 
17/01/08 20:51:57 


INFO 
INFO 
INFO 


INFO 
INFO 
INFO 
INFO 
INFO 


5.egg 
Executor: Starting executor ID driver on host locolhost 


Utils: Successfully storted service 'org.opaoche.spork.network.netty.NMettyBlockTransferService' on port 52928. 
NettyBlockTransferService: Server created on 192.168.0.1909:52970 

BlockMenoger: Using org.apache.spark.storoge.RandomBlockReplicotionPolicy for block replication policy 
BlockMonogerMaster: Registering BlockManager BlockManagerld(driver, 192.168.0.109, 52920, None) 
BlockMonagerMasterEndpoint: Registering block manager 192.168,0.109:52920 with 366.3 MB RAM, BlockManagerld(driver, 192.168.8 
BlockManagerMaster: Registered BlockManager BlockMenagerId(driver, 192.168.0.1809, 52920, None) 

BlockMaonager: Initiolized BlockManager: BlockManagerlId(driver, 192.168.0.109, 52928, None) 

SharedStcte: Warehouse path is 'file:/Users/drabast/Document s/Publishing/TST/Ch13/spark-worehouse/'. 


MemoryStore: Block broadcast 8 stored as volues in memory (estimated size 127.1 KB, free 366.2 MB) 
MemoryStore: Block broadcast 8 piece0 stored as bytes in memory (estimated size 14.3 KB, free 366.2 MB) 
BlockMonagerInfo: Added broadcast 80 piece8 in memory on 192.168.0.109:52920 (size: 14,3 KB, free: 366.3 ME) 
SporkContext: Creoted broodcost Q from csv at NativeMethodAccessorImpl.jovo:Q 

FileInputFormat: Total input paths to process : 4 


阅读 这 些 输 出 可 以 得 到 很 多 有 用 的 信息 : 


` Spak 当 前 的 版 本 : 2.1.0 


. Spark UI (有 助 于 跟踪 你 的 作业 进 


度 ) 在 http://localhost: 4040 上 成 功 启 动 


- 我 们 的 .egg 文 件 已 成 功 添加 到 执行 中 


: uber. data nyc 2016-06 3m 


- AME IAE E AR JE? 


一 旦 作业 完成 ， 你 


17/01/08 20:52:09 INFO 
17/01/08 20:52:09 INFO 
17/01/08 20:52:09 INFQ 
17701708 70:52:09 INFOQ 


VendorIDI 


2016-06-09 
i 2016-06-09 2 
¿016-06-09 
(2016-06-09 
2016-06-09 2 
2016-06-09 2 
2016-06-09 
2016-06-09 
12016-06-09 
2016-06-09 


2 mi pè T 


- - 


only showing top 10 rows 


17/01/08 
17/01/08 
17701708 Z0: 
17701708 
17/01/08 
17/01/88 
17/01/88 
17/01/88 
17/01/88 
de 
17/01/08 2 


':69 INFO 
t INFO 
INFO 
INFO 
INFO 
INFO 
INFÜ 
INFO 
INFO 


52:10 INFO 


ToskSchedulerlmpl: 
DAGScheduler: 
DAGScheduler:; 
CLodeGenerator : 


5porkul: 
MapOutputTrackerMasterEndpoint: 
MemoryStore: 
BlockManager ; 
BlockManagerMaster: 
OutputCommi t Coordinatorf$OutputCommi tCoordinatoartEndpoint : 
SparkContext : 
SnutdoesnHookManager : 
Shu tdownHookManager : 


S5hutdosnHookManager: 


_pattitioned.csv 已 经 成 功 读 取 
吉 来 都 已 经 列 出 


将 看 到 类 似 于 以 下 的 内 容 : 


Removed ToskSet 4,0, whose tasks have cll completed, from pool 

ResultStage 4 (showString ct NativeMethodÁccessorigmpl,java:8) finished in 8,726 s 
Job 3 finished; shoaString ot NativeMethodAccessorImpl,java;8, took 5,491978 s 
Code generated in 22.037969 ms 


= 一 一 ”~ 区 一 一 一 一 一 一 一 一 一 一 一 一 一 ”一 一 一 一生 一 一 一 一 一 一 一 一 一 一 一 一 一 和 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 二 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 ~ 一重 一 一 一 一 一 一 一 一 一 一 一 一 中 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 一 呈 一 一 一 一 一 一 一 一 一 ”一 一 一 一 一 一 一 人 
tpep pickup datetimel 


pickup. longitude! pickup latitude! dropoff longitude áropaff, Latitude!totsl aeount |! ailesi ki L ometers| 


一 一 一 一 = -下 


-73.995201110839841 40.7394905090332 

-F4 . 0051040649414140. 7375183105468 

73. 99408721923427 ]40. 75905227661133 

73. 998863220214841 40. 73970413208008 
'3,97891674804686140. 7584686? 792969 

. .979080200195311 480.7470703125 

T =7 3. 996452331542581 40 . 75335693359375 
-7 3, 986029477980481 40 . 74996948242188 


-73,99320220347266 
-7 3.99778747558594 
-73.98001098632812 
-74,0042037963867? 
-7 3.95187377929686 
-7 3.98967742919923 
=73.9559555053711 
-74 00271606445312 


40. 76264190673828 
40. 756744384765625 
40. 78608322143555 
42. 71982955932617 
40. 77802276611328 
4. 7038459777832 
40. 772197723386867 
40. 76051330566406 


14.1611.60312389647602755| 2.579977824050715| 
11.1611.382585736934451612.227585 2218383! 
13.3! 2.007767579890166| 3.231188706803284 | 
12.3] 1.40146762175523412,2554435082660556 | 
11.7611.67889761680321079| 2. 7019238049755767 | 
24.8| 3.037812203195951| 4.8588884842340184 | 
21.3512.4873338365295776| 4.002975785815857 | 
. 11.1511.8059114083347532311.704478895350851?2 | 
-74,00428771972656140,73029708862305! -73.98162078857422! 40.75013732910156 15.3611.813187327719265412.91804214674103331 
73.98191070556641 40. 75682449340821 -73. 947273275439453]  40.7801170349121 14.312.4240392228557777613.9011129785880243| 


* B + + 


Stopped Spark web UI ot http;//192.168,0.109:4040 

MapÜutputTrackerMosterEndpoint stopped! 

Menory5tore cleared 

BlockManager stopped 

BlockManagerMaster stopped 

OutputCammitCoordincGtor stopped! 

Successfully stopped SparkContext 

Shutdown hook called 

Deleting directory /private/var/folders/. g/wy8 18n54ez .ktg1pgj..b^j388009q/T /spark- 


7949b5724-2506-4c92 -b292 -a&ücccd661 


Deleting directory /private/var/folders/ g/wy6 l8nS4mz ktglpgj.bnj8680Qgq/T/spark- 79d9b524-2500-4c92-b?292 -a&0cccdó661 


de/pyspark - 98 Seb26- 3581-4951-8219-2d733d48?237c6 


endegvour:Chi13 drobast$f 


从 前 面 的 截图 来 看 ， 我 们 可 以 看 到 其 正确 地 报告 了 距离 。 你 还 可 以 看 到 Spark UI 进程 现在 已 经 停止 ， 并且 所 有 清理 作业 都 已 
执行 。 


11.2.5 ”监控 执行 


当 你 使 用 spark-submit 命 令 时 ，spark 会 启动 一 个 允许 你 跟踪 作业 执行 情况 的 本 地 服务 器 。 以 下 是 窗口 显示 内 容 : 


caiculatingGeoDistance.py application UI 


Stages for All Jobs 


Active Stages: 1 
Completed Stages: 2 


Active Stages (1) 


Stage id ~ Description Submitted 
2 csv at Nat»eMethodAocessorimpl geva: 0 -detzis — (k 2017/01/08 21:05:33 04s 
Completed Stages (2) 
Description Submitted 


csv at NativeMethodAccessormpl java 0 ^detais 2017/01/08 21:05:33 


csv at NativeMethodAcoessortmopl.java 0 deus 2017/01/08 2105633 


在 窗口 的 最 项 部 ， 你 可 以 切换 作业 (obs) 或 者 阶段 (Stages) WE; 作业 视图 允许 你 跟踪 每 一 个 执行 完 完 整 脚本 的 作业 ， 
而 阶段 视图 则 允许 你 跟 踊 所 有 执行 的 阶段 。 


你 还 可 以 在 每 个 阶段 执行 配置 文件 中 到 达 顶 峰 ， 并 通过 单 击 阶段 的 链接 来 跟踪 每 个 任务 的 执行 情况 。 在 下 面 的 截图 中 ， 你 可 
以 看 到 第 3 个 阶段 的 执行 配置 文件 ， 其 中 有 4 个 任务 正在 执行 : 


Soo... Jobs Stages. Storage — Environment X Executos X SQL 


Details for Stage 3 (Attempt 0) 
Total Time Across All Tasks: O ms 

Locality Level Summary: Process local: 4 

+ DAG Visuakzation 

* Show Addtiona! Metrics 

b Event Timeline 

Summary Metrics for 0 Completed Tasks 
No tasis have reported metrics yet. 


- Aggregated Metrics by Executor 


Launch Time 

2017/01/08 21:07:19 
2017/01/08 21:07:19 
2017/01/08 21:07:18 
2017/01/08 21:07:19 


DECUIT 而 不 是 驱动 程序 或 者 本 地 服务 器 (drtiver/localhost) 中 ， 你 会 看 到 驱动 程序 的 数量 和 主机 的 IP 地 址 。 


在 一 个 作业 或 者 阶段 内 ， 你 可 以 点 击 DAG 可 视 化 来 查看 你 的 作业 或 者 阶段 是 如 何 执行 的 〈 以 下 图 表 雹 边 展示 了 作业 视图 ， 石 
边 则 展示 了 阶段 视图 ) : 


 DAG Visualization w DAG Visualization 


F "Jj pues" "ln ir a 
Fi Scan DD [7 
"wString at Nath 


rd 
erga is 
showStr 


11.3 ”Databricks 作 业 


如 果 你 正在 使 用 Databricks 产 品 ， 从 你 的 Databricks 笔 记 本 开 友 到 生产 的 一 种 简单 的 方法 是 使 用 Databricks 作 业 特 征 。 它 会 


让 你 : 
: 安排 你 的 Databricks 笔 记 本 运行 现存 的 或 者 新 的 集群 ; 
: 安排 你 期 望 的 频率 (从 分 钟 到 月 ) ， 
: 安排 超时 和 重 试 你 的 作业 ; 
作业 开始 、 完 成 或 者 出 错时 ， 进 行 提醒 ; 
. 查看 历史 作业 运行 以 及 回顾 个 人 笔记 本 作业 运行 的 历史 。 
此 功能 极 大 简化 了 作业 提交 的 调度 和 生产 流程 。 注 意 ， 你 需要 升级 你 的 Databricks 订 阅 (社区 版 ) 来 使 用 此 功能 。 


要 使 用 此 功能 ， 可 以 到 Databricks 作 业 菜 单 ， 点 击 Create 人 作业。 从 这 里 开始 填写 作业 名 称 ， 并 且 选 择 你 想 要 转换 为 作业 的 笔 
记 本 ， 如 下 截图 所 示 : 


Select Notebook to Run 


© archive 
C3 content 
C» demo 
C3 dogfood 
© internal 
O sc 

M scratch 


[3] dbfe prep 

[3] log analysis 

[5] Mpa Sample 

Price LR 

[3 Po vs. Price Multi-Chart 
S Pop. vs. Price Single Chart 
D Streaming Word Count 


一 旦 你 选择 了 你 的 笔记 本 ， 你 还 可 以 选择 是 使 用 一 个 正在 运行 的 现存 的 集群 ， 还 是 使 用 作业 调度 来 为 这 个 作业 特别 局 动 一 个 


New Cluster， 如 以 下 截图 所 示 : 
Configure Cluster 


Cluster Type Y New Cluster 
Existing Cluster 


Spark Version Snark 160 


Workers | 
Workers: 30 GB Memory 
Driver: 30 GB Memory 


Use Spot Instances 


Show advanced settings 


4 Cores 
4 Coraes 


Fall back to On-Demand 9 


一 旦 你 选择 好 了 笔记 本 和 集群 ; 便 可 以 设置 进度 表 、 和 警报、 超时 和 重 试 。 


一 旦 你 完成 了 所 有 作业 的 设置 ， 它 应 该 看 上 去 类 似 人 口 与 价格 线性 回归 作业 (Population vs.Price Linear Regression) ， 如 
以 下 截图 所 示 : 


Untitled 


« All Jobs 


Population vs. Price Linear Regression © 


Task: Notebook at /Users/ /demo/scenarios/Pop. vs. Price LR - Change / Remove 
o Libraries: Add 
Cluster: 150 GB Spot, On-demand, Spark 1.6.0 Edit 
Schedule: Every day at 4:00am (US/Pacific) Edit / Remove 
Advanced » 
Alerts: Edit 
e On start: demoGdatabricks.com 
Timeout: 30 minutes Edit / Remove 
Retries: Limit 4x , 30 sec delay Edit / Remove 


Active runs 


Run 


No active runs, Run Now 


Completed runs 
Latest successful run (refreshes automatically) 
Previous 20 
Start Time 
2016-02-07 12:55:20 


你 可 以 通过 点 击 Active runs 下 方 的 Run Now 链 接 来 测试 作业 。 


正如 在 Meetup Streaming RSVPs 作 业 中 所 指 ， 你 可 以 查看 已 完成 运行 的 历史 ; 如 截图 所 示 ， 访 笔记 本 有 50 个 已 完成 的 作 
AL : 


| CAI Jobs 
Meetup Streaming RSVPs 已 
l'content/Ctreaming Meetup RSVPs/4c. Reports and Dashboards (magWithState. Country) - Change / Remove 
Cluster: demo-? (120 GB, Running, Spark 1.8. Eo 
Schedule: Every day of 1:00am (US/Pacific) Edit / Remove 
| Advanced + 


Active runs 


No ective ruris, Run Now 


| Completed runs 


| Lie mucosestul run [refreshwis automatically) 


t Presión 20 

Stort Time 

2018-02-21 20-04:00 
2016-02-21 20:03:00 
2010-02-21 20:02:00 
2016-02-21 20:01:00 
2018-02-21 2000:00 
2018-02-21 1650:00 
2018-02-21 19-58:00 
2016-02-21 19:57:00 


mF (job run) (本 例 中 Run 50) ， 你 可 以 看 到 作业 运行 的 结果 。 你 不 仅 仪 能 看 到 开始 的 时 间 、 持 续 的 时 间 和 状 
态 ， 还 能 至 看 特定 作业 的 结果 : 


p Streaming HivPs 
« All Jobs / Meetup Streaming RSVPa View * Code 


Hun 50 of Meetup St M u; PSUR E ng Dashboard 


Started: 2016-02-21 20:04:00 


Vcontenti/Streaming Meetup P'SVP»/4c. Peports and Dashboards (magWithStste, Country) 


Reports and Dashboards using mapWithState (Country) 


This is the third notebook of the Streaming Meetup RSVPs set of notebooks. The purpose of this notebook is to create a set of reports and dashboards using 
Spark SQL from the DataFrames generated by the Streaming Meetup RSVPs Streaming applications. 


Meetup Sourcas 


* Based off of the Meetup RSVP Ticker 
* Reference: Meetup Streaming API > RSVPsS6md ## Meetup Streaming Example 


select + from batch seetup.stresm country order by count desc limit 20; 


闪 一 REST 作 业 服务 器 (Job Server) 


运行 作业 的 一 种 流行 方式 是 使 用 REST API。 如 果 你 使 用 的 是 Databticks， 可 以 使 用 Databticks REST API 运 行 你 的 作业 。 如 果 你 
更 喜欢 管理 自己 的 作业 服务 器 ， 有 一 种 开源 的 REST 作 业 服 务 器 是 spatk-jobsetvet， 用 一 个 REST 的 接口 来 提交 和 管理 Apache Spatk 作 
业 、jars 以 及 作业 环境 。 近 期 项 目 ( 写 这 本 书 的 时 期 ) 进行 了 更 新 ， 所 以 它 可 以 处 理 PySpatk 作 业 。 更 多 的 信息 ， 请 参 


阅 https://github.com/spark-jobserver/spatk-jobserver。 


11.4 人 小结 


在 本 章 中 ， 我 们 介绍 了 如 何 从 命令 行 提交 Python 所 写 的 应 用 程序 到 9park 中 的 步骤 。 过 论 了 spark-submit 参 数 的 选择 。 我 们 
还 为 你 展示 了 如 何 打包 你 的 Python 代 码 并 将 其 和 你 的 PySpark 脚 本 一 起 提交 。 此 外 我 们 还 向 你 展示 了 如 何 跟踪 你 的 作业 执行 情 
况 。 

另外 ， 我 们 还 提供 了 一 个 如 何 利用 Databricks 作 业 特 征 来 运行 Databricks 笔 记 本 的 简 述 。 此 功能 简化 了 从 开发 到 生产 的 过 
渡 ， 人 允许 你 将 笔记 本 作为 一 个 端 到 新 的 工作 流 来 执行 。 


到 此 已 经 把 我 们 带 到 了 本 书 的 尾声 。 和 希望 你 能 享受 这 段 学 习 之 旅 ， 并 且 这 里 所 包含 的 材料 能 帮助 你 开始 使 用 Python 来 利用 
Spark 工 作 。 祝 你 好 运 ! 


